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随机 逼近 算法 可 以 理解 为 是 利用 观测 值 估计 未 知 函 数 的 极 值 或 未 知 方程 
解 的 自 适应 问题 求解 技术 . 它 起 源 于 20 世纪 50 年 代 初 Ribbins 和 Monro 所 
提出 的 求 未 知 函数 零点 的 一 个 递 推算 法 ( 称 之 为 RM 算法 ) 以 及 此 后 Kiefer 和 
Wolfowitz 等 人 有 关 未 知 函 数 极 值 问题 的 研究 .随机 青 近 理论 ( 即 随机 通 近 算 
法 的 理论 基础 与 分 析 ) 近 几 十 年 来 得 到 了 飞速 发 展 ,已 成 为 数理 统计 与 人 工 智 
能 的 交叉 分 支 ,并 已 广泛 地 应 用 于 系统 辨识、 自 适 应 控制 ,模式 识别 、 自 适应 滤 
波 、 神 经 元 网 络 等 领域 .有 关 随 机 逼近 理论 的 研究 , 近 几 年 出 现 了 Albert Ben- 
veniste, Lennart Ljung、 陈 输 顶 等 国内 外 著名 学 者 的 专著 ,它们 对 随机 到 近 理 
论 的 方方面面 作 了 系统 、 深 入 的 阐述 . 这 些 著作 虽 各 有 深入 讨论 的 侧重 面 ,但 
由 于 篇 幅 过 大 ,论题 过 多 ,对 初学 者 来 说 ,不 易 掌握 . 本 书 的 编写 目的 在 于 向 读 
者 (特别 是 数学 系 研究 生 ) 提 供 一 本 难度 适中 、 内 容 基本 、 易 于 自学 的 教学 用 
节 . 因 此 ,本 书 的 前 一 部 分 (第 一 章 一 第 四 章 ) 者 重 介绍 随机 通 近 基础 理论 中 的 
核心 问题 (随机 逼近 算法 的 收敛 性 ) 和 基本 的 收敛 性 结果 ,以 及 这 些 基本 结果 
在 一 些 具体 自 适应 性 算法 中 的 应 用 . 本 书后 一 部 分 集中 介绍 近 几 年 随 高 性 能 
计算 机 发 展 而 出 现 的 几 类 自 适应 算法 (遗传 算法 、 模 拟 退火 算法 . 主 成 分 分 析 
神经 网 络 算法 ) 以 及 随机 逼近 理论 对 它们 的 应 用 . 

遗传 算法 是 模拟 自然 界 生物 进化 过 程 与 机 制 求解 极 值 问题 的 一 类 自 适应 
算法 . 它 的 产生 归功 于 美国 Michigan 大 学 的 Holland 在 20 世纪 60 年 代 末 70 
年 代 初 的 开创 性 工作 .他 不 仅 设 计 了 遗传 算法 的 模拟 与 操作 原理 ,而 且 更 重要 
的 是 运用 统计 决策 理论 对 遗传 算法 的 搜索 机 理 进 行 了 理论 分 析 , 从 而 为 遗传 
算法 的 发 展 葛 定 了 基础 . 近 十 几 年 来 ,遗传 算法 无 论 是 在 应 用 上 ,还 是 在 基础 
理论 上 都 取得 了 长 足 发 展 ,已 成 为 信息 科学 .计算 机 科学 .运筹 学 和 应 用 数学 
等 诸多 学 科 所 共同 关注 的 热点 研究 领域 .但 相对 卓有成效 的 广泛 的 实际 应 用 
而 言 ,遗传 算法 的 数学 基础 理论 研究 还 相对 滞后 ,还 不 能 说 很 完善 或 很 深入 . 
近期 研究 主要 是 围绕 如 何 提高 算法 效率 和 建立 算法 理论 基础 方面 . 本 书 第 五 
章 和 第 六 章 专门 讨论 遗传 算法 的 随机 过 程 分 析 及 其 收敛 性 分 析 , 其 中 大 部 分 
内 容 是 西安 交通 大 学 理学 院 信息 与 系统 科学 研究 所 师 生 们 近期 的 科研 成 果 . 

模拟 退火 算法 源 于 对 固体 退火 过 程 的 模拟 ,是 解 全 局 优化 问题 (特别 是 组 
合 优化 问题 ) 的 一 种 通用 自 适应 方法 .该 类 方法 以 随机 方法 为 基础 ,结合 一 系 
列 相关 夫 代 算法 , 既 克服 了 迭代 算法 的 一 些 本 质 缺 陷 ( 如 收敛 的 局 部 性 ,通常 
只 收敛 到 问题 的 局 部 极 小 ) ,而 又 保持 了 它们 的 突出 优点 ,如 快速 局 部 收敛 和 


" 
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所 获得 的 解 不 依赖 于 初始 状态 等 . 本 书 第 七 章 专门 讨论 马尔 可 夫 链 模型 的 模 
拟 退 火 算法 ,介绍 齐 次 算法 和 非 齐 次 算法 的 一 些 渐 近 收敛 性 结果 . 

主 成 分 分 析 是 一 种 经 典 的 统计 技术 , 它 用 于 分 析 多 变量 统计 观察 的 方差 
结构 , 它 与 估计 理论 中 的 最 小 方差 技术 ,时 间 序 列 分 析 中 的 Karhunen Loeve 
变换 和 数值 分 析 中 的 奇异 值 分 解密 切 相 关 . 这 些 方法 在 信号 处 理 、 图 像 编码 、 
信息 压缩 等 领域 有 十 分 基本 而 重要 的 应 用 .近年 来 ,人 们 利用 神经 网 络 技术 求 
解 主 成 分 显示 出 极 大 的 优越 性 ,许多 用 于 求解 主 成 分 的 神经 网 络 算法 问世 .这 
些 主 成 分 分 析 神 经 网 络 算法 的 突出 优点 是 它们 的 自 组 织 性 和 自 适应 性 ,而 且 
易于 硬件 实现 .本 书 最 后 一 章 介 绍 与 此 相关 的 一 些 简单 、 通 用 算法 ,并 且 作 为 
随机 通 近 理论 的 应 用 ,研究 这 些 算法 的 收敛 性 质 . 

全 书 共 分 八 章 .第 一 章 给 出 本 书 必需 的 概率 论 方面 的 预备 知识 .第 二 章 介 
绍 研 究 随机 逼近 算法 的 三 种 常用 方法 .第 三 章 讨论 形式 非常 一 般 的 具有 局 部 
有 界 矩 随机 盟 近 算法 的 几乎 必然 收敛 性 . 第 四 章 将 第 三 章 的 收敛 性 结果 应 用 
于 一 些 具体 的 适应 性 算法 ,获得 这 些 算法 的 几乎 必然 收敛 性 .第 五 章 介绍 遗传 
算法 的 基本 概念 .过 程 分 析 和 遗传 算法 的 Markov 链 模型 .第 六 章 对 抽象 的 
( 算 子 型 ) 遗 传 算法 在 各 种 意义 下 的 收敛 性 进行 了 讨论 ,并 对 两 类 特殊 类 型 遗 
传 算法 的 收敛 性 进行 了 细致 分 析 . 第 七 章 建立 模拟 退火 算法 的 马尔 可 夫 链 模 
型 ,介绍 齐 次 算法 和 非 齐 次 算法 的 一 些 渐 近 收敛 性 结果 .第 八 章 介 绍 一 些 简 
单 、 通 用 的 主 成 分 分 析 神 经 网 络 算法 ,并 利用 随机 逼近 理论 研究 这 些 算法 的 收 
WYE. 

本 书 的 主要 内 容 曾经 在 西安 交通 大 学 理学 院 应 用 数学 系 硕士 生 的 课程 上 
讲授 过 ,有 不 少 内 容 是 直接 由 文献 改写 的 .限于 作者 自身 水 平 ,难免 有 遗漏 与 
不 妥 之 处 ,县 请 读者 批评 与 指正 . 
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第 一 章 ”预备 知识 


本 章 给 出 阅读 本 书 所 必需 的 若干 预备 知识 ,包括 概率 论 离散 参数 鞠 和 马 
尔 可 夫 链 等 领域 中 与 本 书 有 关 的 一 些 事实 与 概念 . 


$1.1. 概率 论 的 若干 基本 概念 


1.1.1 ”随机 变量 及 其 分 布 


设 (0,F,P) 为 一 概率 空间 ,X 是 在 2 上 定义 的 实 值 函 数 , 记 X-!(B)= 
lw:X(w)EBI,BCR,X-!(B) 称 为 集合 B 的 原 像 . 

定义 1.1.1 定义 在 可 测 空间 (2 ,92) 上 的 实 函 数 X, 如 果 对 数 直线 上 任 
意 Borel R B, X ' (B) € 7, Wf X 为 了 可 测 ,概率 空间 上 的 可 测 函 数 也 称 为 
随机 变量 . 

对 可 测 函数 X , 集 系 1X -!(B):BE 名 (R)| 构 成 -个 o 域 , 称 为 由 X E 
成 的 a 域 , 记 为 c (X) ,其 中 2G(R) 是 R 上 的 Borel 域 .对 于 随机 变量 X ,定义 
函数 

F(x) = Plo:X(o) 和 zl，zER， 
下 (z) 称 为 X 的 分 布 函数 . 


1.1.2 ”随机 变量 列 的 收敛 性 


设 |X,X,| 为 一 列 随机 变量 . 

DMR FERIER e, H lim P(| X, 7 X| >e)=0, 则 称 ! X,1 依 概率 
收敛 到 X , 记 作 X, - mx ineo. 

(2) 如 果 PClim X, — X)=1, 则 称 随机 变量 列 X, 概率 1 收敛 到 X ,或 称 
随机 变量 列 X, 几乎 处 处 收敛 到 X , 记 作 X, “X, n>, 

(3) 如 果 limE(| X, 一 X|?) =0, 则 称 随机 变量 列 X, 均 方 收敛 到 X, 记 作 


n 
X, X,n—9. 


上 面 各 种 收敛 性 有 如 下 关系 


X, 532 Xn e oo X, Xn coccX, LL X, n > o, 
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X, eX n 一 coc» 存在 子 列 X T X 一 oo， 


1.1.3 ”随机 变量 的 期 望 和 条 件 期 望 


EX 1.1.2 ” 设 随 机 变量 X 宇 0,a.s. , 记 
Ani = lo:i2 < X(w) < (i +1)2”}, ni= 1,2, 
X 的 数学 期 望 EX 定义 为 
EX = f xar = lim [$ i2 "PCS + nP(X > n)]. 
对 不 是 非 负 的 随机 变量 X, TRAER X" = max(X,0) 与 负 部 X = 
max( 一 义 ,0) 的 差 XX=X* 一 X ,如 果 EX+<oo 或 EX <oo, 则 定义 X 的 数 
学 期 望 EX= EX' -EX ; 当 EX*<o%,EX- < okt, FR X 是 可 积 的 ; 当 EX 
有 定义 时 , 它 还 可 表 为 Lebesgue-Stieltijes 积分 
EX = |” zdF(z). 
由 初等 概率 论 知 ,在 事件 ACPCA) >0) 发 生 的 条 件 下 ,事件 B 发 生 的 条 
件 概率 定义 为 
P(B | A) = P(AB)/P(A), (1.1.1) 
如 果 P(A)=0, 就 规定 P(B|A)=0. 
固定 A(P(A)>0),P(*|A) 是 7 上 的 概率 测度 ,(1.1.1) 式 可 写成 
[ncopao 14) = sd; f tGoPGo), 
其 中 1s KRR B 的 示 性 函数 .因此 随机 变量 X 关于 A 的 条 件数 学 期 望 可 定 
义 为 
1 
E(X | A) = | XGOP(o 14) = P] XO Pg). (1.1.2) 
如 果 P(A) =0, 则 规定 E(X14)=0. 特 别 当 X(w)= In Co )E, (1. 1.2)884E 
为 (1.1.1) ,故我 们 只 须 考虑 条 件 期 望 . 
将 E(X1A) 推 广 如 下 :考虑 Q 的 某 一 可 测 分 割 A1,A2,…, 即 对 一 切 ;之 
LAI€2,AA; = D, iz j, 3A = 了 .为 了 从 整体 上 考查 E(X|A;),i=1， 
m 
2,…, 定 义 随机 变量 Y(w) 如 下 
Y(w) = VEXI ADI (w), (1.1.3) 
TU E((XI) «o, P(A,) »0Bf, 由 (1.1.2),(1.1.3) 知 


$1.1 概率 论 的 若干 基本 概念 E EI 


| Xo) Pd) = P(ADECX 1 A) = | YGOP(O), (1.1.4) 
^ ^ 


如 果 P(A;) = 0, 上 式 两 边 都 等 于 零 , 故 (1.1.4) 仍 然 成 立 . 易 见 , 当 取 1A， 
AP(A)>0, 为 有 的 可 测 分 割 时 ,在 (1.1.4) 中 以 A 代替 A; 即 得 (1.1.2). 
令 4=a(Ai:i=1,2,…) 是 含 一 切 | Ai:i=1,2,…} 的 最 小 o 域 .由 于 中 元 
素 ( 除 空 集 外 ) 都 是 某 些 A; 的 供 集 , 故 由 (1.1.4) 知 ,对 一 切 BESH 


[ xcoPao) = | Yoopao. (1.1.5) 
B B 
ig Y- EXI),  ECX |) Uf PER 
(DECX 14)J& 4 pill. (1.1.6) 
Qv Bes, | xG)P(o) = | EX UG) P (o). (1.1.7) 
B B 


根据 上 面 对 特 殊 的 o 域 4 讨论 的 启示 ,我 们 将 条 件 期 望 推广 到 一 般 的 域 
定义 1.1.3 给 定 随机 变量 X X 789 T o M6 ECL XD) « om, 称 随机 变 
基 E(X19) 为 X 关于 的 条 件数 学 期 望 ,如 果 它 满足 (1.1.6) 和 (1.1.7)， 
为 使 上 述 定义 有 意义 ,必须 保证 满足 (1) 和 (2) 的 随机 变量 存在 . 为 此 考查 
ET Td 
eG) =| xdPp， vBes. 


易 知 ,p(*) 是 5 上 广义 测度 ,而 且 如 果 P(B)=0, 则 有 9(B)=0. 即 gp 在 4 上 
关于 测度 P 绝对 连续 .根据 Radon-Nikodym 定理 ,在 关于 测度 P 几乎 处 处 相 
等 的 意义 下 ,满足 (1) 和 (2) 的 随机 变量 E CX |) — fr t RIA X 关于 2 
的 条 件数 学 期 望 时 , 指 的 是 上 述 等 价 类 中 的 一 个 代表 . 
例 1.1.4 若 随机 变量 X 关于 乡 独 立 , 则 有 
E(X | 8) = EX. (1.1.8) 
证 明 因为 EX X T our, HV BC v, 


Í xaP = EG) = EGO POS = | Exar. 
B B 


例 1.1.5 E 6-259 XN o np, WA 
E(Xi$)- X, a.s. (1.1.9) 
特别 YBEY 有 
P(B!9) = Ig, a.s. (1.1.10) 
9.1.6 假设 X 与 Y 同 时 为 连续 型 随机 变量 ,E(|1Y|)< co mH 
(X,Y) 有 联合 概率 密度 f(x. y) c y ER, AUR 6-5 (X), BD 6616 —ü] 
{CXEB),BE5X)i 的 最 小 = 域 , 则 E(Y19) 与 概率 论 中 定义 的 Y LFX 
的 条 件 期 望 一 臻 .事实 上 ,Y 在 X=z 条 件 下 的 条 件 概率 密度 定义 为 
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fla) = f(x,y) plx), b(x) »0, (1.1.11) 
其 中 ple) = /zy)dy, 当 p(z) = 0 时 ,规定 (1.1.11) 左 方 值 为 零 .于 
EÈ Y EX = x 条 件 下 的 条 件 期 望 为 

EC(YIX= 2)= yf l z)dy = ez), (1.12) 


由 (1.1.11) 和 (1.1.12) 知 右 方 为 z 的 可 测 函 数 ,因此 得 到 可 测 函 数 

g(z)= E(YIX=x), z€R, 
可 见 ,Y 关 于 X 的 条 件 期 望 E(Y1X)=&g(X) 为 c(X) 可 测 ; 往 证 YBE 
o(X), 有 


NL - f, YdP， (1.1.13) 
假设 A(z ) 为 任意 有 界 可 测 函 数 ,A = n: p) 201 FUE 
Ea 00Y)- 人 [人 hasa, ydrdy 


= LIE. yE ay pohlade 


= [aoo GOh Gp 
= f &CO& X)dp. 
如 果 在 上 式 中 令 A(z) = Ip n) TEA(R) 则 有 


firin roS loss gOOdp, 
即 (1.1.13) 成 立 ,可 见 g(X) - E(Y|9),a.s.. 


1.1.4 ”条 件 期 望 的 基本 性 质 


以 下 提 到 的 随机 变量 X, X, 均 假 设 是 可 积 的 . 不 等 式 ,等 式 及 极限 关系 
都 是 几乎 处 处 成 立 ,不 另 再 声明 . 
性 质 1.1.7 对 于 任意 实数 c;,i=1,2, 有 


2 2 
E(Xaxs)-» 3 GEX). 
£ E 
2 
证 明 HEX GE(OG|[9) 为 4 可 测 ,而 且 VB C 5, 有 
zi 


f, Zaio] Saf eos todo 


S A 
= Xaj xn = | (X ex)ap. 


SLI 概率 论 的 若干 基本 概念 E R pgs 


TERR 1.1.8 
(1) 如 果 X20, WA ECX | 4)z0. 
(2) 如 果 X2 x; WA E(X I2 EGG! 9). 
证 明 WE XO. 
B = [eiECXI$)(») < 0}, 
B, = Iw: E(X|Iw) <- 1/m}, m = 1,2,7, 
Au B= X Bn. 而 且 


1 ~ 
- ip.) >f, E 0)dp = f, xa L0, 


所 以 p(B,,) 20, p(B) 50, (DRZ: ER CU) REFERRE 1.1.7 推 得 (2) 成 立 . 

性 质 1.1.9 [E(OXIOISECGXIUIm. 

证 明 由 性 质 1.1.7 和 1.1.8 直接 推 得 . 

性 质 1.1.10 (单调 收敛 定理 ) 假设 0<X, ^ X, n>, WA 

lim ECX, 14) = E(XI9). 
证 明 HO X, —X,.umx 得 
Ox E(X,[ 9) SEX|) S- « E(X|4), 

故 对 几乎 所 有 w, lim ECX, 19(o) 存 在 ,对 极限 不 存在 的 w 定义 极限 值 为 
零 .如 此 规定 后 lim E (X, |9)(w) 为 4 可 测 . 往 证 它 等 于 E(X|9).1£ BES, 
根据 积分 的 单调 收敛 定理 得 


Í, lim E(X, | Ddp= lim [EX Dap 


= lim f, xap = f, xa. 
所 以 
lim E(X,14) = E(XI9). 

性 质 1.1.11 (Fatou 引 理 ) 设 随机 变量 列 |X, ;n=1,…| 的 每 个 X, 的 
期 望 存在 . 

(1) 车 存在 随机 变量 X ,使 EX > - co HV n1, X2 X Lass. Lll 
lim X, 的 期 望 存在 , 且 有 

E[limX, 4] limE[X,|4]. 

(2) 若 存在 随机 变量 X ,使 EX «o, HV n2, X, X, a. s. Wim X, 

的 期 望 存在 , 且 有 
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E[lim X, |4]2 limE[X, l4]. 
证 明 因为 
0 inX,- X^ limX, - X, n=, 
由 单调 收敛 定理 得 
E[lim X,l$]- E[XI 4] 7 E[limX, - Xl 4] 


= limE[Cint X, - X)|4] 
= limE[X, - X14] 
= limE(X,|*]- E(X|4]. 
从 而 (1) 得 证 ,类 似 地 可 以 证 明 (2). 
性 质 1.1.12 (控制 收敛 定理 ) 假设 |X, | Y Y 可 积 ,而 且 lim X, = 
X, 则 有 
limE(X,14) = E(X12). 
证 明 ^ 
S5 WE Do ipfe 
因为 
[X] Y, SyX, LX, n>, 
OxY-S,Y-X, OcY-«1^Y-^*X, n-o, 
由 单调 收敛 定理 得 
E(Y-S,|)VE(Y - XI$), n>, 
ECY + LI$) 3 ECY * X|9), n->o%, 
从 而 
E(X|$)- lim ECL, |4) 
< limE(X, 14) 
< limE(S, | 9) 
= E(X|9). 
性 质 1.1.13. 如果 随机 变量 X Je o up EH. EC XY |) « co, 则 有 
E(XY|9) = XECY |). (1.1.14) 
证 明 4 
L = IX:E(| XYl) < vol, 
L = 1X:X 使 (1.1.14) 满足 } ， 
由 性 质 1.1.7 和 1.1.10 容易 证 明 工 EL R, BI X=, ACIES 


$11 概率 论 的 若干 基本 概念 二 


可 测 的 ,而 且 对 于 任意 BC ^, 8 
f xvas E | Yap z JE Y19dp= jx sdp, 


Mk IA EL ,根据 L 系 方法 (参见 文献 [2]463 页 引 理 4) 知 工 包含 一 切 属于 工 
且 关 于 4 可 测 的 随机 变量 x. 

性 质 1.1.14 

(1) 全 数学 期 望 公式 :上 (EC(X1 20) = EX. 

(2) 重 条 件 期 望 公式 : 当 ACh IW UE 

EC(E(X| 4) | $) = E(X| 4) = EEX, $) | 8). 

证 明 (1) 在 (1.1.7) 中 令 且 =2, 即 得 到 (1). 

DAH ACH, CE CX |:6,)29 6 RTI, ATH 1.1.5 的 结论 得 第 1 个 
等 式 ,为 证 明 第 2 个 等 式 ,只 需 注意 ,如 果 BE, W BEG iA 


J, xav = f, E(x lap. 


性 质 1.1.15 (Holder 不 等 式 ) I< pacoh + - =1, 则 有 
ELI XY E [6] < CECI X^ | $]) ^CEC | Y l| 4])8, 
特别 当 p= q—2 时 ,有 Cauchy-Schwarz 不 等 式 
ELI XY | $P < E(X | 9 ECY?| 9). 
证 明 4 E[IXI^I4]0, EC| Y |*| 6] 250 时 ,在 不 等 式 
labis $ lale + T lol 
中 置 
a = X/ E[IXI^|4] #0, 
= Y/E(1Yl*|4] #0, 
利用 条 件 期 望 的 线性 性 ,单调 性 和 性 质 1.1. 11, 对 所 得 不 等 式 稍 加 整理 , 即 得 
所 需 结果 . 
为 了 便于 证 明 下 面 Jensen 不 等 式 ,我 们 介绍 关于 凸 函 数 的 一 个 性 质 . 称 
函数 f) c € R 为 凸 函 数 ,如 果 对 于 任意 r, y € R, 0a <1 有 
flar + (1 — a)y) & af(x) + (1 - a)f(y), (1.1.15) 
对 任意 固定 的 zx<y, 令 z=ar+(1-a)y, 由 (1.1.15) 得 
fe) - f(x) « 2fG) * 0 7 a)f(y) - fi) 
rf-zz »-r 
-dO)-dfG) 
yy 二 并 


令 a 人 1( 这 等 价 于 z V z) 得 f(z) 的 右 导数 (xz) 存在 , 且 满 足下 面 不 等 式 
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f. G) « £O — f). 
了 一 工 


户 (z)(y-z) 入 F(y)-F(z)， (1.1.16) 
显然 当 yr 时 ,此 不 等 式 仍然 成 立 . 
性 质 1.1.16 (Jensen 不 等 式 ) BE f(x), € R 为 凸 函数 ,随机 变量 X 
是 可 积 的 ,4 是 8 的 任意 子 o 域 则 有 
fLEOCH) & ELFOX)|$],— a. s. 
证 明 在 不 等 式 (1.1.16) 中 , 令 y- X, z- ECXI)f8 
f+ CECI) (X - ECXI 9) < AX) - f(E(X|®)) 
两 边 对 多 求 条 件 期 望 得 
FIEX) IIIS ELFOO 9$], a.s. 


$1.2 BEEN 


1.2.4 和 停 时 

定义 1.2.1 ”定义 在 可 测 空间 (02,9) 上 取 值 于 10,1,…, + oo LI STER 
数 rlw) WARF FRF o 域 流 | 多 :n=0,1,…| 是 停 时 ,如 果 对 任意 非 负 整 
Bn, (<n) EP RENFE n) ER, 

若 ri, rz 为 停 时 ,根据 定义 不 难 验证 ri; + 72, T; V r2 max( ti, r2), 
ti A r2=min( r1 , rz) 都 是 停 时 . 进一步 若 假设 | r, | 为 一 列 停 时 ,容易 证 明 
supl ta s inf | e, Hs limsupl e, |, lim inf |r| 都 是 停 时 . 

EX 1.2.2 Br, n 0,1, MERE AS 

F= [AA E Fo Al X n)€ Z,Vn20l, . (12.1) 

PKF, H c llo 域 . 

其 中 =o(U? 5 ); 易 知 当 cn 时 ,9. = 歼 . 

性 质 1.2.3 coni EI, n =0,1,…-| 停 时 , 则 有 

(1) r 为 到 可 测 . 

(2) 当 rie; HA CF. 

证 明 (1) 对 任意 非 负 整数 m,n, 9 A=(r<m), 

A(tr<n)=(r<nAm) € Z, m CRA € TF. 

Bc S, 可 测 . 

(2) VA€Z, HEXA, 

Vn 20, AnKa) ER, 
Ala n) = A(r x n) x 1) ER, 


$1.2 离散 参数 软 _ H9 


M AC, TC. 
HURI2A WnmemeÓueeR—8)0,in 20,1, BRUM e 
= infe, HELLE. F= (1. 
证 明 由 性 质 1.2.3 知 , 对 任意 正 整 数 n C, 4C 1A, AZIE 
取 AEP 元 ,有 
A(cx n) = UIA < n) E 4A€X. 


1.2.2 d 


定义 1.2.5 称 过 程 X= |X :=0,1,…| 为 | 元 :72=0,1,…| 鞭 (相应 
Lau MINUS 

(1) X &027,:n 70,1, HE BA n LX, 是 到 可 测 . 

(2) E(| X, |) «o, n 70,1,. 

(3) 对 任意 非 负 整数 m< n E(X, | Fm) = X, SX n Xn). 

例 1.2.6 假设 1Y,:n=0,1,…| 是 独立 的 随机 变量 列 ,E(| Y, |) < 
9o, ECY,) —0, g, 是 kk 元 Borel 可 测 函 数 ,k=1,2,… 令 

b, = gl Yos Yon Yu). 


X, = Xo + 215Yu 
1 


5,7 o( Yo, Yi Y) n 4,2, JEP Xo 为 常量 ,假定 已 (| 和 |)< co 
71,2, X, 7, n =0,1, L ERR. 
事实 上 ,显然 对 任意 n 91,2, E Xp D) co; 又 因为 
Xa = Xn + basi Ynsis 
EOGQA A) EOG[A) + EC bns Yni Fa) 
= Xn + bpa El Yna || 
= X, + b,n EYnsi = X, 
定理 1.2.7. 假设 1X, Pr n=0,1, eR] Yn, 7, n =0,1, 4 ERR 
FË), 
(1) X, + Y,,7,,n 70,01, SR RF A). 
(2) IX, V Y,,2,,n 20,1, & Ff. 
证 明 (1)X, + Y, 的 适应 性 和 可 积 性 是 显然 的 ,只 需 验证 定义 1.2.5 中 
的 条 件 (3) ,对 任意 非 负 整 数 mm n, 
E(X, + Y,|2,) 2 E(X,| Fn) + E(Y, | Fn) 
= Xm + Y, 《相应 地 过 X, + Yn). 


"pss B BAR 


(DAX X, V Y,Z X, X, V Y,Z Y, CH 
ECX, V Y,] Fn) > E(X, | Fn) V EQY,I9,) Z Xn V Yn. 

由 定理 1.2.7(2) 知 ,如 果 {X, 7,0 70,1, 和 | Yn Arnon 70,1, 4E 
E, WIX, A Y,,7,,n =0,1, | bà ER. 

定理 1.2.8 (1) 假设 |X, Fn n 70,1, HERR, f 是 定义 在 Ri 上 的 西 
函数 ,如果 , V 0: E | /(X,) | «o WU L FOX), n 70,1, LER R 

(2) 假 设 | X, 2, n 70,1, IER RCEBR f£ RE XER, 上 的 非 降 凸 
函数 .如 果 , V n0, E | f(X,)| < oo, WE £(X,)., 9, n 70,1, & FRE 
CLE). 

(ORB X, Faon =0,1, E, f EEE R, EBAEDEIL RC d 
RV n20, E| fX) |<, WFX), F, n=0,1, 1E Eh. 

证 明 ”我们 只 证 明 (2) ,其 余 的 证 明 是 类 似 的 . 对 任意 非 负 整数 m< n, A 
HRR /是非 降 的 ,而 且 ECX, 5,02 X, ,所 以 f(E(X, (Fn) 2 fX) B 
Jensen 不 等 式 有 

EGQO,)2,) > fCE(OG|2,)) 2 f(X,). 

推论 1.2.9. ”假设 | X, 9, 0 70,1, HB GEHE TF LAB LDU—ÓE 
数 .如 果 对 8270, | X, |* 是 可 积 的 . 则 || X, F, 00 CFR. 

推论 1.2.10. (BUE LX, 2, n 70,1, DERE WIX, F, 0, 
loc HERB. 


1.2.5 ”高 散 园 的 基本 不 等 式 


BIX, 2, n 70,1, ERR FBO JUXET n>m HEX, Fn) = X, 
GRZ- X,,) ,如 果 将 n,m 换 成 停 时 后 ,上 面 式 子 是 否 仍然 成 立 ? 下 面 的 定理 
指出 , 当 停 时 有 界 时 ,回答 是 肯定 的 . 

定理 1.2.11 (Doob 有 界 停 时 定理 ) HIX,2,,n-70,1,-- FR o 
c 是 一 对 有 界 停 时 , 则 有 

() E[X,| «o, E| X, | <. 

(2) E(X,| ,) 2: X,. (1.2.2) 
TR IX, 2, n 70,1, ER HUI CL 2.2) OA Bap e 


证 明 设 r<N, 则 有 |X.|< IX e Li', 同 理 |X,jEL'. 设 AEe 
F, WA 
Als - )(»j)€35. (1.2.3) 
如 果 r- o1 AEAHCFIHER (1.2.3) XE AC, H 


$12 Bst mu 


L G5 7 XP - D fine- DG») 
对 一 般 情况 , 令 a; cA (oj), 7 12,7 NU a; 是 停 时 , 且 
sSaymoUmay- c, ap-0 Xl, aj-aju Xl, 
A (1:2:5) 
于 是 对 任意 AC, ACA, ,1<j<N, 从 而 


| xar < f xap < «| xar, 


又 因为 X, & 7, 可 测 , 故 (1.2.2) 成 立 . 
Hi 1.2.12 WE X, 9, n 70,1, I & FE (BO o,r 是 一 对 有 界 停 
时 , 则 有 


(X; - Xr)dP « 0, (1.2.4) 


EXAFS Xa. (= XA. 
证 明 因为 
Xo = Xolo>rc + Xolu<r 
= Xd Xonio 
(oe < 20€ Z4 C5, 
故 有 
E(Xsnrls<r|Fr) = XoArdo<， 
EGGS |F) = Lx. E(X] Fare) > Lose Xoro 
E(X, |F Ls. Xene + lece Xun = Ar: 
定理 1.2.13. BIX, Fn n 70,1, EFR, WYA 90, 220,46 
QPlmxX,zal« | XdP«E|X,. 
Im, 241 
(Q2) AP | minX, L-A |<- EX + n X, dP<EX} -EX9 < 
mx, 


am 


E|Xo| * EI X,|. 
(3) AP lmax| X; | ZA | <2EX} - EXE | Xo| * 2E| X, |. 
证 明 (1) 令 
nx, 2 AL, 
Cle — 如果 上 面 集合 是 空 集 ， 
W c 是 停 时 ,而 且 r<n, 记 M= {max X, >A}, WIZE M E, z, >A, mH ME 
S SR EV jn, MA (c7) - X A,0&j -1, X >A) EF. RIX 
tn 应 用 Doob 有 界 停 时 定理 得 
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aeu « J XdP <| Xap, 


(1) 的 第 一 个 不 等 式 得 证 ;(1) 的 第 二 ,三 个 不 等 式 是 显然 的 . 
(2) 类 似 地 令 

Jminlk:k Sn, X S- AL, 

in, 如 果 上 面 集合 是 空 

记 M= lminX 人 < 一 X41, 因 为 r<n, 对 0,r 应 用 Doob 有 界 停 时 定理 得 


t= 


EX, < EX, = | xar + | xar <- MP(M) + | xar. 


即 (2) 的 第 一 个 不 等 式 成 立 ,(2) 的 第 二 ,三 个 不 等 式 是 显然 的 . 
推论 1.2.14 BIX, Fn n-0,10, HEEL E| X, |^ 0, p21, n> 
0, 则 V nl, 
P max] X |> A] < E| X, |^/x9. 
证 明 HiX, 7,0 70,1, ERA | X, |^ LE BL HERE BE 112.13 
(1) 得 
MP [max] X, |? > X71 < E| X, |^, 


Plmax| X | >à] = Plmax| X, |? >a] < E| X, |^/a^. 
定理 1.2.15 BIX, As 2 70,1, EERTE, p 1,00 
p 
Elgaxxfl < (etx, in. (1.2.6) 


证 明 $ Y = max X, ,由 定理 1.2.13(1) 知 


Wp(Y >a) < | nsax ap, 1.2.7) 
Hi(1.2.7) & Fubini 定理 得 
Eye= | a IN ^a = f do 六 fld 
z aP], P^ 7 JadPJ, Ivo pà” dà 


aj tm ons pj aai] xa )as 


(Y>) 
m IESUS ‘di )ap = REY), (1.2.8) 
再 由 (1.2.8) 及 Holder 不 等 式 得 
EY? < q || X, || ,LEYO7?«]"? = q X, ll, b Y g^, 
如 果 EY?* 降 0, 两 边 除 以 上 Y 12/8 || Y ll a ll X, 1,,(1.2.6) 得 证 :如 果 
EY?=0, 则 EX? =0,(1.2.6) 仍 成 立 . 


$1.2 AMSER E 


推论 1.2.16 (Doob 不 等 式 ) HIX, 7, 8 70,1, EIEN FR p> 
1, 则 
[ElyupXl?]? < q sup || X, V ,. (1.2.9) 
证 明 由 (1.2.6) 得 
[E Imax XE] ]^ < gl X, ll, &esypll X, l,. 
令 nofi (1.2.9). 
"FiuEBI AS TOES I SEASAESR ofr ESEBCE. FEDT IBI (a ,0] 及 
M 个 数 zi,za,…,zw, 如 果 从 zi 起 顺 次 到 rm, Hla ,6] 的 左 方 到 其 右 方 共 
v 次 ,就 说 数列 zi, ra，…zw EF la, blo 次 ,确切 的 定义 如 下 , 令 
minl n:0 n « Mz, Sa}, 
ji 2" + 1， 如 果 上 面 集合 是 空 集 ， 
_ [minl n:z, S n € Mz, Z bl, 
(OAM + 1， ”如 果 上 面 集合 是 空 集 ， 
£ Jinta se Xn KM, z, Lal, 
^ 7lwer, 如 果 上 面 集合 是 空 集 ， 
fminl n:r, Sn € M,z, Z bl, 
Alms 如果 上 面 集合 是 空 集 ， "00007 
定义 1.2.17 fl o, M 的 最 大 的 k FIOI gans nox 上 穿 [a ,6] 
的 次 数 , 记 为 VICE o, M +1,0 2 0). 
定理 1.2.18 (上 穿 不 等 式 ) BIX, ,为 ,n=0,1,…| 是 下 黑 , RE E 
穿 [a ,5b] 的 次 数 , 则 有 


EGD & 
0—a 


Lr 


LEG - a)! - EGG - 2) ] < g H LEX} + lal). 


(1.2.10) 

证 明 $ Y,-(X,-a)*,n 70,1, M, HHW 1.2.10 知 | Y,| 是 下 

Wo BARI Y 上 非 负 . ME] Y, 1 上 穿 [0,5 a ] 的 次 数 等 于 iE ma 的 定义 

"PEG Lb, X, PARIR O, b- a, Y, ,并 补充 定义 a0=0, rw1= M +1, Ya 
= Yu WA 


m ue 
Yu- Yo = XY (Ya = Yp) + D OYn = YQ). (0.2.4) 
fa 各 


如 果 尼 =r>0, 则 有 Y, - Yi 之 6 -a,k=1,…,r, 由 于 当 k2rW.Y,- Y. 
二 0, 故 


M 


2, - YO 2G -a)r = 6-24, 
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当 =0 时 ,上 面 式 子 仍然 成 立 , 于 是 有 
E[S Yn- YD] > 6 - o4. (1.2.12) 


其 次 由 于 ,ok -1 都 是 有 界 停 时 ,而 且 oa HER 1.2.11 EY, > 
EY, Ami 
"m "m 
E[X (Y, =- Y, D ]= XEY, - Ev, )>0, 0.243) 
E 名 
由 (1.2.11),(1.2.12),(1.2.13) 得 EYw- EYo>(b - a ) E, Bl 
Ef & zL-EOQ - a)*- E(Xo - a)*]. 


1.2.4 Bi f uir S SE RR 
定理 1.2.19. BIX, F, 5 70,1, MH FI UR. 


sup E| X, |< oo, (1.2.14) 
则 存在 ,可 测 的 随机 变量 X。 {E E | Xe | < co ,而 且 
b(limX, = Xe) = 1, (1.2.15) 
其 中 =o( ÜA) 
证 明 令 


A= fw:lim supX, (w) > lim infX,(w)}, 
A(a,5) = lo:lim infX,(») < a < b < lim supX,(w)1 
则 有 A, Ala, b) E 3. I BL 
A 7 ,ed (UD, (1.2.16) 
其 中 Q 为 全 体 有 理 数 .下 面 证 明 PCA) = 0, 令 (MERA Xo Xi， 
Xu ES La ,5] 的 次 数 , 必 表 示 数 列 Xo ,Xi ,… 上 穿 [a ,6b] 的 次 数 .显然 
必 (M) 关 于 M 不 减 ,而 且 有 7 lim 必 (M), 由 上 穿 不 等 式 得 


EL(M)< LolEXh + lal] 


«yl slg ElXul+ lal], (1.2.17) 
由 (1.2.14) 和 (1.2.17) 知 Ey; & oo Jf 
pol < oo) = 1， (1.2.18) 


由 于 4(a,p)Cfiw: 风 (w)= + | ,再 由 (1.2.18) 知 p1A(a,65)| =0, 从 而 
P(A)=0, Bh lim X, 几乎 处 处 存在 . 令 X» = lim infX,, 则 Xote Fo BIW, if] 


$1.2 离散 参数 次 oae 


H Xu = lim X, a. s. ,再 用 Fatou 引 理 , 和 (1.2.15) 式 ,得 
E| X». | lim infE | X, |< supE| X, |< co. 
注 1.2.20 由 于 下 | X,| -2EX; - EX, QEX; - EX,, UI IUE FR 
条 件 (1.2.14) 等 价 于 形式 上 较 弱 的 条 件 supEX» < co XET EB hF 
E|X,|= 2EX; + EX, <2EX; + EX4, 
故 (1.2.14) 等 价 于 条 件 supEXa <. 


1.2.5 ”Doob 停 时 定理 


定义 1.2.21 ” 称 蒜 (或 下 蒜 )1 X, ,元 , =0,1,…, 是 右 闭 的 ,如 果 存 在 
多 可 测 , 且 可 积 的 随机 变量 X。 ,使 得 对 任意 n>0 有 
下 (Xe| 丈 )= X,( 或 之 X,)， (1.2.19) 
显然 装 ( 或 下 蒜 )|X,, 歼 ,=0,1,…} 是 右 闭 的 充分 必要 条 件 是 存在 可 积 的 
Y ,对 任意 n2:0/8 
E(Y|2,) = X,GRz X,), 
实际 上 ,只 需 令 X = EY | 4) ,那么 Xe 满足 右 闭 定 义 的 要 求 . 
下 面 证 明 离散 参数 时 的 Doob 停 时 定理 . 
定理 1.2.22. iE X,,7, n 70,0, M LCS PT CRF E) , 停 时 o 
r, 则 有 
(1) Xa, X, 都 可 积 , 且 E(X。 | 4.) = X (GR X,). 
(2) E(X,19,) = X, GR X,). 
证 明 对 任意 Borel E r € n0. 
(X, € De & n) -Ü € T(r= A) € 5, 
ik XEF RR X,€ 7, 


(Xn 2, ,n=0,1,…,M| 是 右 闭 园 ,由 (1) 及 条 件 期 望 的 性 质 , 有 
INESSE DINNESET 
x INNEN -E|Xe|« c, (1.2.20) 
从 而 X, 可 积 , 同 理 X, 可 积 .对 任意 AEF, (1.2.19) 08 


INE DIM NESED 


NS 
s 23 sn 


IX dp = | Xedp, (1.2.21) 


yiga B pi 


E E(Xo |7) 7 X, F] EXo |7) = X, OR. PRIE (2), MC) 
BIC 云 可 得 
E(X,|2,) = E(E(X«|92,)) = E(X«|2,) » X. 
(ZIX, 9, n 70,1, Mi 是 右 闭 下 鞭 
先 将 X, 分 解 为 
X, = E(Xe|25)- Y,. | 0 n&o, (1.2.22) 
其 中 
Y= ERVE s 
易 知 |Y, 2, n 70,1, EAE Eei E 
Yo = E(Xo|Fo)- Xo = 0, 
因为 Y, IEMA E(0].7,) =0<Y,,n=0,1, = RR] Yo" 是 右 闭 的 . 记 
mm = E(X Fn), n= 0,1…， 

Hm, 7, n 70,1, EAA, AE 一 ) 的 结果 ,jx | 满足 (1) 和 (2) ,因此 
Flu LY, ,3 ,n=0,1,…| 满 足 相 应 的 (1) 和 (2). 因 为 Y=0,4.;. , 故 有 
Y, = Y leco), a.s. 

EY, = E lim Y. Hes) E lim Yi, (1.2.23) 
H Fatou 3] BI f EY, < lim inf EY. ,因为 0 和 + 人 是 有 界 停 时 ,由 定 
理 1.2.12 知 (1.2.23) 的 右 方 不 大 于 EY6, 从 而 0 过 EY, < oo ,显然 0 = 
E( Yo | 元 )S Yi, 故 (1) 成 立 . 现 来 证 明 (2), 令 t=rAk,o=oNk,k=0,1, 
7l ta ror 都 是 有 界 停 时 , 且 ru<o, 任 取 AE 太 ,由 于 A(s<k)E 7, SHIRE 
31.2.2118 


MES Yep] Yadp， (1.2.24) 
TRAE Ce E) C Cac) ,又 因为 Y, >0,a. s. HH 

MENDES (1.2.25) 
注意 在 (r<k) 上 r=, 在 (o<k) 上 0=o4, 于 是 由 (1.2.25) 得 

os Ydp <f ua Ydp, 
令 k 一 oo 得 

es Ydp <| ,Yodp, (1.2.26) 
注意 到 Ye =0,a.s., 由 (1.2.26) 得 


J Yap <J Yap, 


$1.3 马尔 可 大 链 NE: 7- 


即 Y, >E( Y, | 元 ), 于 是 由 (2.6.4) 得 
EQG[AZ) = EG Ez) - ECY.| A2 m, - Y, = Xa- 


$1.3. 马尔 可 夫 链 


本 节 介绍 离散 时 间 参 数 马 尔 可 夫 链 (Markov chain) 的 基本 理论 . 
1.3.1 马尔 可 夫 链 的 定义 及 其 转移 概率 


定义 1.3.1 ” 称 随 机 序列 X, :n=0,1,…| 为 离散 参数 马尔 可 夫 链 , 如 果 
它 满足 
(1) 1X,:n=0,1,…| 的 状态 空间 E 为 至 多 可 数 集 . 
(2) 对 任意 非 负 整数 n BARA ioris in 
PX = Dis Xo = dos X = in) = pOGa = inal X, = 5). 
(1.3.1) 
如 果 对 任意 非 负 整数 m,n 及 任意 状态 ;i Mj 有 
Pa mjX -02pQQa-jX,-i, (132) 
JU 称 马 氏 链 | X, :n=0,1,…i 是 齐 次 的 .在 齐 次 情形 , 记 pj = p(X,+1 = 
j| X m D BE py 为 1X, :n=0,1,…| 的 转移 概率 ,以 p, LC E 为 元 素 形 成 
的 矩阵 P=( pi)i,jeE 称 为 | X :n=0,1,…| 的 转移 矩阵 ,本 节 只 介绍 齐 次 马 
氏 链 . 
例 1.3.2 简单 随机 游 动 ,假设 Xo= a,a 是 常数 ,Z1,Z,,… 是 独立 同 分 
布 的 随机 变量 列 ,而 且 PCZ, 71) p. P(Z, -0) - r, P(Z, - l)7q.p*q 


(r1, X 7 MZ MIX ai 0,1, L 为 齐 次 马 氏 链 .其 状态 空间 = 


Ir] 


lax n,nz0,10,-] ,转移 概率 为 Dijsi7 Dipis-17 qo pij rA pu 
0, 此 马 氏 链 称 为 简单 随机 游 动 . 当 pq — 1/2 REL REK X, im = 0,1,…| 为 对 
称 随机 游 动 . 

例 1.3.3 ” 带 吸 收 壁 的 随机 游 动 .假设 简单 随机 游 动 |X, :n=0,1,…| 的 
状态 空间 为 10,1,… ,6b1 ,如 果 质 点 移动 到 状态 0 或 b 后 就 永远 停留 在 该 状 
态 , 即 po.o= py 7 1, 其 余 的 向 =0, 就 称 | X, :n=0,1,…| 为 带 吸收 芯 0 和 必 
的 随机 游 动 . 

例 1.3.4 ”如 果 例 1.3.3 中 的 质点 移动 到 状态 0 或 5 后 ,下 一 次 移动 必 
返回 , 即 po. — piu m VERI X, :=0,1,…} 为 带 反射 壁 0 和 6 的 随机 游 
动 . 
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定理 1.3.5 ” 齐 次 马 氏 链 的 联合 分 布 由 初始 分 布 p(xo=i)= ppi EE 
KERERE P = ( pi ) 完 全 确定 . 

证 明 对 任意 n=0,1,… 和 任意 状态 io ion i EE, 由 马 氏 链 的 定义 


» 
p(Xo = d Xy = des Xn = in) 
= p(Xo = io)p(Xı = ii| Xo = io) p(X = i2| Xo = io, Xi = i1) 
“p(Xn = in| Xo= io Xi = is Xp- mda) 
= pbi Phy Mht (1.3.3) 
ATEX, in =0,1, | AEREA RHEA TE H BA Z1 e EREE P 
完全 确定 ,再 由 Kolmogorov 扩张 定理 知 定理 1.3.6 的 结论 成 立 . 
定理 1.3.6 ”对 于 齐 次 马 氏 链 及 任意 m,n=0,1,… 任 意 i,jEE 有 
pim E: APR. 
其 中 
Py"c (Xim= 诈 Xo= i). 
证 明 
PE = (QS, = j|Xo = i) 


= DPX, XQ = j|Xo = i) 
kEE 


= M, = k| Xo 


ACE 


= DP pl), (1.3.4) 


ACE 


(1.3.4)5 88578 Chapman-Kolmogorov 方程 . 
1.3. ”状态 的 分 类 


定义 1.3.7 ”如 果 集 合 lm :mn 三 1,P4") >0| 不 空 ,该 数 集 的 最 大 公约 数 d 
7 d (i) 称 为 状态 i 的 周期 ;如 果 d >1, 称 i 为 周期 的 状态 ;如 果 & = 1, 称 ;为 
非 周期 的 . 
现在 我 们 引入 常 返 性 概念 , 记 
IP = Pl Xan Fj EVE = SKi a 
(1.3.5) 


DpOXG S = 了 |Xo = i, X, = k) 


Nu 


fp -0, 
易 知 ,上 式 右 方 等 于 
D bis Pss, Ps ur (1.3.6) 


Sj AE n-1 


$1.3. 马尔 可 夫 链 加 2149 - 


与 m 无 关 , 它 表示 质点 由 i 出 发 ,经 n 步 首次 到 达 j 的 概率 . 记 f 
= gestes i 出 发 ,经 有 限 步 终于 到 达 j 的 概率 . 

定义 1.3.8 如果 f, - 1 Feo i 为 常 返 的 ;如 果 方 <1, 称 状态 iud 
常 返 的 . 

对 常 返 状态 i, ISP ,n=1,2,…| 形 成 一 概率 分 布 ,此 分 布 的 期 望 值 六 
= > nfi ) ,表示 质点 由 i 出 发 再 返回 到 i 的 平均 回转 时 间 , 于 是 可 将 状态 ; 
细 分 如 下 ， 

定义 1.3.9” 称 常 返 状态 i 为 正常 返 的 ,如 果 ;< co. 称 常 返 状态 i 为 
零 常 返 的 ,如 果 mu = oo. 非 周期 的 正常 返 状态 称 为 遍历 状态 . 

应) 与 pz 多 有 如 下 关系 . 

定理 1.3.10 ”对 任意 状态 i,j 及 n=1,2,…, 有 


Du 2e b) 一 = Sopr s D (1.3.7) 


证 明 
P = p(X =j|Xo= i) 


= DPX Fj NSvLR- LX = X, = jlXo= D 


1 


XX jimzvoxk -1,X = j|Xo = i), 
rr 
b j|Xo = iX jdsvmk-lX, =j) 
" Epe 2) 
uy Ui ^ 
E 
类 似 地 可 以 证 明 第 二 个 等 式 . 
DURER TENERE 29,a1,85, 9 — RR , RIIE 


FRM ACG) = Paus 为 数列 1a, 的 母 函数 . 易 知 ， la, | 有 界 , 则 AC) 


对 一 LIMES 假设 1a, | 与 15, 1 的 母 函 数 分 别 为 A(s) 与 B(s) 且 对 一 切 
1s1<1 收敛 ,那么 


s Y abra. n = 0,1, (1.3.8) 
的 母 函 数 
C(s) = A(s)B(s), SIST, (1.3.9) 


定理 1.3.11 RE: 是 常 返 的 当 且 仅 当 3 p(w = eo; 如 果 状态 ; 是 非 
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常 返 的 , 则 有 

WE 1 

abe = Tefa 


证 明 Elo PAA ERRA POM FC) EB AE pO? 
-1,/0 -0, Hi (1.3.7)f8 
P(s) -1 = P(s)F(s), 
"M 0<s<1 Ht, FG)S fia iE L3.10)f8 
1 


P(s) = FGV 0<s<1, 


又 因为 对 任意 0<<s<1 及 任意 正 整 数 N ,有 


> Wr < PCs) < «Xn. 
1E (1.3.12) 4 s ^1, N >o ,得 
limP(s) = Šar. 
同 理 
limF(s) = im = fis 

在 (1.3.11) 中 令 s ^ t, Hi (1.3.13) CL. 3. 14) 得 到 定理 的 证 明 . 

^ g,7 bh ARREA n 使 X, =j)= pl Üx, 2j). 

定理 1.3.12. ”对 任意 状态 i, 有 


当 / 常 返 ， 
55718 sw. 


证 明 4 
Ar = lw: EDH k ^n EX (o) = jl, 
显然 ACA, HH 
limp CA) = gy. 
另 一 方面 ， 


pi(Arr1)= pl ÜX, jj ,<vSm-1,X, =j, 
至 少 有 个 使 Xiw = j)! 


= E BO jasosxin-IX, sd 


(CEDA k Sn (EX, = j)l 


(1.3.10) 


(1.3.11) 


(1.3.12) 


(1.3.14) 


(1.3.15) 


(1.3.16) 


$13 马尔 可 夫 链 要 


= Ë MADRID = fb A (1.3.10 
反复 选 代 (1.3.17), 并 注意 p, CAD = 万, 我 们 得 到 
bil Ar) = fufubi Ara) mon = f. (1.3.18) 


令 & 一 吕 , 如 果 f; — 1, 00485] gy5 方 ,如 果 方 <1, 则 得 到 gj =0, 定 理 得 证 . 

推论 1.3.13 ”状态 i 是 常 返 的 当 上 是 仅 当 gz; = 1, 如 果 状 态 i 是 非常 返 
的 , 则 有 gi;=0. 

证 明 直接 由 定理 1.3.12 得 到 . 

定理 1.3.14 ”假设 状态 i 是 常 返 的 , 且 有 周期 为 d, 则 有 

lim pi? = d/ pi. (1.3.19) 

证 明 参见 [2]64 页 定理 2. 

定理 1.3.15 ”假设 状态 i 是 常 返 的 ， PER 

(1) 状态 i 是 零 常 返 的 当 且 仅 3 “limpi? = 

(2) 状态 i 是 遍历 的 3 当 且 仅 当 lim ps z ne 

证 明 〈1) 如 果 状态 ;是 零 常 返 ,由 (1.3.19) 知 lm p? 0,8 80 
mod(d) 时 piP — 0, 故 有 lim pi? = 0; 反 之 如 果 lim pl =0, 而 且 i 是 正常 返 
的 , 则 由 (1.3. 19)f8 lim p? >0， 与 假设 矛盾 . 

(2) BL E lim pi" =1/w >0, 这 说 明 状 态 ; 是 正常 返 的 ， H lim pi^ 
71/ n; ,与 (1.3.19) 比 较 得 到 d = 1, 故 状态 i 是 遍历 的 .反之 由 定理 1.3.14 
知 结论 是 显然 的 . 

我 们 称 自 状态 i 可 达 状 态 j JH inj UR EFE n 0 使 ps”>0, 称 
状态 i 与 状态 j 互通 ,并 记 为 i*j ,如果 ijji. h CK 方程 易 知 ,如 果 i 
j jk W i 一 k, 即 可 达 关 系 具 有 传递 性 ; 当 i 是 常 返 状态 时 ,有 i->i, 即 
状态 i 是 自 返 的 ;下 面 证 明 对 常 返 状态 可 达 关 系 还 具有 对 称 性 . 

定理 1.3.16 ERS i 是 常 返 的 ,而 且 i->j, 则 状态 ) 是 常 返 的 , 且 有 
f 54: 

证 明 dc 

jb = p(X, Aj SvSn 1,X, =k), 
fü = pX € Tj bla v n-L X, = k). 
KH inj d 方 >0, 但 是 


故 存在 N ,使 
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Je» 0. (1.3.20) 


另外 
0-1-f;- DPA- ADRA- i) 0.3.20 
[s 


FEM (1.3.20), (1.3.2098 (1— f) 20, jn i lE p 020, p - p» 
0, 则 由 C-K 方程 知 ,对 任意 正 整数 n, A 

P? > PPPS = 由， (1.3.22) 

由 定理 1.3.11 知 31 pi? = o Jii] om = oo ids j EREN. 

E E 


1 

下 一 定理 指出 互通 的 状态 是 同一 类 型 的 . 

定理 1.3.17 如果 iej, RU 

(CO 与) 同 为 常 返 状态 或 非常 返 状态 ;如 果 同 为 常 返 状 态 , 则 它们 同 为 正 
常 返 状态 或 零 常 返 状态 . 

(2)i 5 j 有 相同 的 周期 . 

证 明 〈1) 的 前 一 部 分 是 定理 1.3. 16 的 直接 推论 . 现 假设 ) 为 零 常 返 状 
态 ,根据 定理 1.3.15 lim pj -0, Td (1.3.22) fü lim p? =0, 故 i 也 是 零 
常 返 状态 . 

(2) 设 i 的 周期 为 & ,7 的 周期 为 *. 由 (1.3.22) 知 ,对 任意 使 得 pU 0 的 
n AME py 170 20 IE 1 RR n rs po m pp = a 
0, 所 以 上 也 可 以 除 尽 ~+ ,可 见 4 RR n XR :过 4d, 对 称 地 可 得 ed , 故 
t=d. 

1.3.3 ”状态 空间 的 分 类 


定义 1.3.18 ”状态 空间 E 的 子 集 C 称 为 (随机 ) 闭 集 ,如 果 对 任意 ;EC 
R REC 都 有 pi =0. 闭 集 C 称 为 不 可 分 的 ,如 果 C 的 所 有 状态 是 互通 的 . 马 
氏 链 |X, :n=0,1,…| 称 为 是 不 可 分 的 ,如 果 状 态 空间 E 是 不 可 分 的 . 

EX 1.3.19 FRA i 为 吸收 的 ,如 果 p, =1. 

定理 1.3.16 指出 自 常 返 状态 只 能 到 达 常 返 状态 ,因此 E 中 全 体 常 返 状 
态 组 成 一 个 闭 集 C .在 C 中 可 达 关 系 具有 自 返 性 ,对 称 性 和 传递 性 ,于 是 可 将 
C 按 互 通关 系 分 解 , 而 得 到 E 的 如 下 分 解 定理 . 

定理 1.3.20 任意 马 氏 链 的 状态 空间 E, 可 惟一 地 分 解 成 有 限 个 或 可 
列 个 互 不 相交 的 子 集 D, C1,C,,… 之 和 ,使 得 

(1) 每 一 个 C, 是 常 返 状态 组 成 的 不 可 分 的 闭 集 . 

DC, 中 的 所 有 状态 是 同类 型 的 ,或 全 是 正常 返 ,或 全 是 零 常 返 .它们 有 
相同 的 周期 , 且 f=1,j,kE C,. 
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(3) D 由 全 体 非 常 返 状 态 组 成 . B C, 中 的 状态 不 能 到 达 D 中 的 状态 . 

证 明 iD C 为 全 体 常 返 状态 组 成 的 集合 ,D=E -C 为 非常 返 状态 全 体 ， 
将 C 按 互 通关 系 分 解 ,状态 空间 E 可 分 解 成 E= DU CiU C2U…, 其 中 ,每 
一 个 C, 是 常 返 状态 组 成 的 不 可 分 的 闭 集 , 且 由 定理 1.3.18 知 C, 中 的 所 有 
状态 是 同类 型 的 . 显然 自 C, 中 的 状态 不 能 到 达 DD 中 的 状态 . 


1.3.4 pi WANEER S F 


本 段 研究 p KIATE HERAN. 

(1) lim pi 是否 存在 . 

(2) 如 果 此 极限 存在 , 它 是 否 与 i 有关 . 

定理 1.3.21 ”如 果 j 是 非常 返 或 零 常 返 , 则 对 任意 i€ Ef lim py =0. 
证 明 由 (1.3.7) 式 ,我 们 有 


PP = DIPO = X hion ORP, (1.3.23) 


因为 > fip 壹 1, 并且 根据 定理 1.3.11 和 定理 1.3.15 知 lim p = 0, 4€ 
名 Im 
(1.3.23) i, $ n oo ,根据 控制 收敛 定理 ,得 到 (1.3.23) 的 右边 趋 于 零 , 故 


lim pj - 0. 

推论 1.3.22 ”如 果 马 氏 链 的 状态 个 数 有 限 , 则 不 可 能 全 是 非常 返 状态 ， 
也 不 可 能 含有 零 常 返 状 态 . 从 而 不 可 分 的 有 限 马 氏 链 必 是 正常 返 的 . 

证 明 设 E=10,1,…, NN|, 如 果 全 是 非常 返 状态 , 则 对 任意 i, € E H 
EI 1.3.21 Allim p; - 0, Mf 


1 = 


MMP-0, n- o, 


这 就 导出 矛盾 ;其 次 ,如 果 EE 含有 和 零 常 返 状态 ;, 则 C= lii Bé f 
零 常 返 状 态 组 成 的 闭 集 ,由 定理 1.3.21 得 
1= Xp 一 0，7 一 oo， (1.3.24) 
jec 


N 
SC 


得 到 同样 的 矛盾 . 
下 面 讨论 ; 是 正常 返 状态 情形 , 记 


f(n2XA(. o«xr«a-1 (1.3.25) 
Ez 
显然 


乙方 (r) = E EA (1.3.26) 
per 2 ü 
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定理 1.3.23 ”如 果 j 是 正常 返 状态 ,周期 为 d, 则 对 任意 i 及 0 入 rd 


-1, 有 
lim (O = 方 (r)d/ n. (1.3.27) 
证 明 [7g pi - 0, n 0mod( d). kk 
pen Niue 
(1.3.28) 


n M fm mig aon) ptm, 


根据 定理 1.3.14 
lim pj" "" = d/ ps 
fECI. 3.28), 4 w >oco ,由 控制 收敛 定理 得 (1.3.27) . 
定理 1.3.24 ”对 任意 状态 i, j ,有 
的 当 是 非常 返 或 零 常 返 ， 
Jalis 当 是 正常 返 . 
证 明 ME j 是 非常 返 或 零 常 返 ,由 定理 1.3.21 Hil lim pz? - 0. BIA 
lim 232 - 0. 
anam 
如 果 j 是 正常 返 , 且 周 期 为 4& ,根据 定理 1.3.23, 我 们 有 


As diee 
i i 
lim L3 pto lim LV un 
meo ni s 


L% pP 


Fa n/d) 
= don = fis. 
推论 1.3.25 如果 马 氏 链 是 不 可 分 的 , 常 返 的 ,那么 对 任意 状态 ;,; 有 
li ly (Lll 
im fy = 


x9 ny, nj 


定理 1.3.26 如 果 马 氏 链 是 不 可 分 的 ,遍历 的 ( 即 所 有 状态 是 遍历 的 )， 
那么 |mx =1/ rk E 已 是 下 面 方程 组 


y= 2. j€E, (1.3.29) 
满足 条 件 0, 
23-1 (1.3.30) 


J€E 
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的 惟一 解 . x 
证 明令 zh = 1/ pes k € E HOEREL.3.23 lim py” d py 
= 1 应 用 Fatou 引 理 得 


> 和 入 1， (1.3.31) 
jEE 


ECKHE DU = M pip, 中 令 n 一 o, 由 Faou 引 理 得 
Ez 
nj mb (1.3.32) 
fet 


E is 
Mx ub, 


E y D by 


kEE jEE 
= Mm. (1.3.33) 
故 对 任意 状态 j, 有 x = 2b. Wiiz,.j € 下 | 满足 方程 组 (1.3.29) ,其 次 ， 
我 们 有 
aE 2b, 
= 2 (Xiba py 
kEE i€E 
- = Dapp =-= Mee. (1.3.34) 
E: 
令 n 一 ,由 控制 收敛 定理 得 x = (Xa Jaj ,因为 >0, 所 以 2n =1, 即 
(1.3.30) 满 足 .再 证 明 惟一 性 ， 假设 | ， jEEl 是 方程 组 (1. 3. "29) 的 满足 
(1.3.30) 的 男 一 个 解 .类 似 于 (1.3.34) 的 推导 得 
w= Sept, (1.3.35) 
jiEE 
S n= fwj = (2j) = EA 
定义 1.3.27 UO, RAREN :n=0,1,…| 的 转移 矩阵 ,如 果 
非 负数 列 | mi ,jE El 满足 
3x = 1, 
j€E 
zj = Daty j€ E. 
则 称 | ,jE 已 为 马 氏 链 | X。:0,1,…| 的 平稳 分 布 . 
定理 1.3.26 指出 ,不 可 分 的 遍历 的 马 氏 链 恒 有 惟一 的 平稳 分 布 . 
定理 1.3.28 假设 zi,kE EI 为 马 氏 链 |X, :n=0,1,…| 的 平稳 分 布 ， 


P(Xo=k)= m, kEE, 
则 
p(X = k)= m, n-0,l,, 
而 且 对 任意 正 整数 n, 及 任意 状态 j,,0<v<<1, 有 
P(X,,, = jj, 0 v&l) = P(X, = j,,0 v« I). 
证 明 
pX, = k) = Dp(Xo = jp 
= bmp = m, n-0405 
jEE 
P(X = j0 v&D)- p(X, = jo bjj, Pirai 
= p(Xo = Jo) bij Dj, 
= P(X,-j,0xvxl). 
1.3.5 ”离散 时 间 连 续 状 态 的 马尔 可 夫 链 
记号 N 表示 非 负 整数 全 体 ,9(R4) 是 R* 的 Borel 集 全 体 . 
EX 1.3.29 IX, n € N' | 为 定义 在 概率 空间 (0,98,P) 上 , 取 值 于 
可 测 空 间 |R* ,3( R*)| 的 随机 过 程 . 如 果 对 于 任意 有 限 个 n cunc 
N? ,i=1,2,…,n, 任 意 AEB(Rt) 有 
P(X, € A| XX, ) = PO € A|X, ), a.s. (1.3.36) 
则 称 此 过 程 为 离散 时 间 连续 状态 的 马尔 可 夫 链 (简称 为 马 氏 链 ). 
引入 记号 
N; = c(X,is Su S t;s,u,t € N*), 
N' 2 c(X,iu S tsu,t € N*), 
N, = o(X,is & uisu € N*). 
以 下 诸 定理 可 以 在 一 般 的 随机 过 程 书 (例如 参见 [2]) 上 找到 . 
定理 1.3.30 马 氏 性 (1.3.36) 等 价 于 下 列 性 质 :对 于 任意 固定 的 + € 
N* ,如 果 函 数 /为 六 可 测 , 并 且 E|f| < co, 则 有 
E(fKIN) = E(f|IX), a.s. 
下 一 定理 说 明 :在 已 知 * 现 在 "的 条 件 下 ,将 来 ” 与 “过 去 "是 独立 的 . 
定理 1.3.31 使 {X,,n€N!| 是 马 氏 链 的 充分 必要 条 件 是 :对 于 任意 
ARD sio s cn Ens ne NT Aj,,B, EB Rt),j=1, 
w, m;k=1; e,n, H 
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P(X, € Aj 2 lo mi X, € Bk o Ves n| X) 
=P(X, € Ajj = Von ml X)P(CG € Bek = ln Ix). 
定义 1.3.32  VJIJGHR ps m A) 5, LE N* st X€ R'SAE€ 
2( 及 ) 称 为 转移 概率 函数 ,如 果 
(1) 对 固定 的 *,z,t, 它 关于 A 是 3( R*) 上 的 概率 测度 . 
(2) 对 固定 的 *,z,A, 它 关于 z 是 2(R4) 可 测 函数 . 
(3) p s, x, t, Ixl)7 1. 
(4) Kolmogolov-Chapman 方程 成 立 : 对 任意 sSctszuss,t,u€ N* ,有 


p(s,r,u,A)= Joints p(y, A). 


定义 1.3.33 ” 称 转移 概率 函数 p(s ,zx,t ,A) 为 齐 次 的 ,如 果 p(s,z,t， 
A)7 p(t - s,x, A). 

EE 1.3.34 WX, n € N* | 为 定义 在 概率 空间 (2 7, P) ECT 
可 测 空间 | R* ,3( R*) | 的 随机 过 程 .如 果 存 在 转移 概率 函数 p(s ,zx ,u ,A),s， 
(€ N' ,st,x € Rt, ACAR), 使 得 对 于 任意 有 限 个 tI1<…<1,,t;€ 
N* ,任意 A;E3(R*), 有 

P(X, € Api = Mun) 


[hof pensano f, pta MUTED 


则 |X,,nEN! | 是 马 氏 链 。 这 里 P(A)= P(X,EA),AE3(R*); 这 时 称 
p(s,z,u,A) 为 马 氏 链 的 转移 概率 函数 . 

例 1.3.35 (随机 迭代 映射 ) 设 (W,) 是 独立 同 分 布 随机 变量 列 , X, ,1 = 
fOX,) + Wa, 并 且 Xo 与 (Wi ) 独 立 .在 X, = xz 的 条 件 下 ,我 们 有 X,,1 = 
f(x) + Wi, 因而 它 与 (Xo, Wi,…,W 1) 独 立 ,也 与 (X,,X, -1,…, Xo) fh 
立 . 设 W, 具有 分 布 密度 p,(y), 于 是 

P(X S yl X, = Xa = aas Xo x) 
=P((f(z) + W,) < y| X, = £, X = xa, Xo = zo) 
=P((f(r) + W,) < y) 

-P(W,)xy-f() 


»-n 


| p(z)dz 


] se - rovs. 
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P(X Sy| X= z) = IET - f(x))dz. 


POGa m y| Xn = ns Xni = nass Xo = a9) 
=P(X Syl X= xn) 


ENT 


fr) 
Flz,y)= | p(z)dz = IET - f(x ))dz. 


在 固定 的 条 件 下 它 是 以 > 为 变量 的 一 个 分 布 函数 , 称 为 从 X, ERI X 
的 转移 分 布 函数 , 它 具有 密度 ply- f(x)) , 称 为 从 X, 到 X, , 的 转移 概率 密 
度 , 这 是 一 个 条 件 概率 密度 . 

例 1.3.36” 设 (W) 是 独立 随机 变量 列 , W, 具 有 分 布 密度 p, (9), Xn ,1 
7G, Wn), Xo 与 (W) 独 立 .此 时 W, ,f(z,，W) 与 (X,,X,-1,…, Xo) 独 
立 .于 是 

P(X Kyl Xs = x Xam nass Xo = x) 
=P(f(z,W,) m y| X, x X= Ths, Xo = xg) 
=P(f(x,W,)< y) 


B f b, z)dz. 
frs) y 


同 理 有 
PX ylX =)= | pls)de, 


fa. z)&y 
iREG)- | pde IBAE X, = a fS AMET X, BAHIA IR 
fin z)my 
数 为 F,(x, y). 
»-fix) 
在 例 1.3.35 中 | p。(z)dz 与 ”无 关 ,是 时 齐 马 氏 链 ;在 例 1.3.36 中 


| o Code 依赖 于 ,是 非 时 齐 马 氏 链 ， 


Kaay 
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程 方法 Lyapunov 方法 等 ) 以 及 几 种 方法 所 用 的 典型 条 件 和 相应 的 收敛 性 定 
理 .本 章 主要 内 容 取材 于 文献 [12]. 


$2.1 随机 允 近 算法 


设 未 知 函 数 A (0) : RIR (函数 形 式 未 知 ), 其 零点 为 0, 即 
h(89) = 0, (2.1.1) 
对 A(') 可 以 在 任意 点 6 进行 量 测 , 但 量 测 带 有 误差 . 若 b A n 次 量 测 时 取 
定 的 自 变量 值 , 则 函数 的 观察 值 为 
Xa = AO) t6, (2.1.2) 
ie,1 是 量 测 误差 列 ,可 依赖 0,,h(:) 也 常 称 之 为 回归 常数 .用 数列 10, 1 和 
1X,1 求 回归 函数 的 根 0 ,这 就 是 随机 逼近 问题 . 
1951 年 ,Robbins 和 Monro 首先 提出 并 研究 了 一 种 随机 逼近 算法 中 ,他们 
取 数 列 | T, | 为 增益 系数 : 
T, » 0, ÈT, = œ, XTi < o, (2.1.3) 
对 O 8998 n +1 次 逼近 为 
Onst = On + TX, (2.1.4) 
其 中 X, 由 (2.1.2) 式 定义 ,这 就 是 著名 的 Robbins-Monro( RM) 算 法 . 当时 他 
们 讨论 了 |e, 1 相互 独立 ,d =1,h(* ) 严 格 单调 情形 ,并 证 明了 
E|6,-60|*-—0 (n=). 
增益 系数 1Yt| 又 称 步 长 因子 ,性 质 (2.1.3) 对 随机 逼近 算法 和 其 他 某 些 随机 
递 推算 法 都 是 必要 的 .条 件 xn < oo 的 实质 是 T, 必须 趋 于 零 ,也 就 是 每 步 
修正 量 应 越 来 越 小 ,直至 把 量 测 误差 的 影响 慢 慢 压 制 下 去 ,使 Y,X, 中 的 Ten 
— (n o). BRET = o 又 说 明 , T, 趋 于 零 的 速度 不 能 太 快 . 因为 若 


Mn < oo ,这 时 即使 e, — 0,5 (C) BAR LA C) || <c ,那么 


之 Nom -Ql S< ET AD cin, 
r 


30- 第 二 章 ”随机 通 近 算法 的 分 析 方法 


这 表明 增 量 [| b+ - 0, || 之 和 与 初 值 bo 无 关 地 一 致 有 界 ,因而 当初 值 bo 与 
0? 相距 很 远 时 ,60, 不 可 能 逼近 名 ,即使 有 极限 也 不 是 9, 故 必须 有 Mn = 


oo, 


1952 年 Kiefer 和 Wolfowitz9 J, RM 算法 出 发 研究 求 未 知 函数 (09) f) 
极 值 的 算法 问题 . 如 果 能 直接 量 测 h(: ) 的 导数 ,那么 问题 就 归结 为 上 面 的 
RM 算法 .但 有 时 只 能 量 测 h(-) 本 身 , 只 好 利用 h(* ) 的 量 测 值 的 差 商 去 估计 
A(') 的 导数 值 ,这 就 是 KW 算法 的 基本 思想 . 
例 考察 带 有 不 同 混合 比 的 合金 在 固定 的 温度 被 熔化 . 合金 硬度 依赖 于 
由 0^ € R* 刻画 的 混合 比 ,但 遭受 随机 影响 ; 设 (9) 是 温度 的 期 望 值 , 我 们 的 
目的 是 递 推 估计 F 的 极 大 值 .从 初始 混合 比 0, € R 开始 , 设 9, 刻画 第 步 
的 混合 比 ;对 于 临近 点 b, + cel m 1, E) H O< cv~0; 单 位 向 量 e (第 / 
个 坐标 是 1) ,我 们 分 别 得 到 随机 强度 X, 和 X”, ,下 一 步 的 混合 比 取 作为 
Xu - X^ 
Onst = On + agr ca! NE c>0. 
如 果 下 是 全 可 微 的 ,导数 记 为 DF, 递 推 式 能 形式 地 写 为 
Basi = 06, + ELDE) - H, - V,], 


其 中 0, , Hn, V, 是 随机 向 量 ,在 用 差分 比 代替 微 商 时 , - H, 被 看 作为 系统 误 
差 , - V, 被 看 作为 随机 误差 ,满足 
E(V,|01, Hi, Vy 7,0, 4, Hua Vua) = 0, 
人 在 关于 F 和 误差 的 一 些 假设 之 下 ,(b,)a.s. 收敛 到 F 的 极 大 值 点 . 
对 任何 一 种 递 推算 法 ,收敛 法 是 首要 问题 .本章 以 RM 算法 为 对 象 ,介绍 
研究 算法 收敛 性 的 几 种 常用 方法 . 


$2.2 € 方 法 


RIBOTHEESE RM 算法 的 收敛 性 , 主要 针对 不 相关 量 测 噪声 的 情形 . 这 
个 方法 的 基本 思路 是 :首先 把 要 讨论 的 收 剑 性 问题 中 的 序列 转化 为 某 一 个 上 
二 或 揪 序 列 , 然 后 证 明 这 样 的 软 序 列 满 足 鞭 收敛 定理 的 条 件 , 获 得 鞭 序 列 的 收 
敛 性 ,再 转化 成 原来 序列 的 收敛 性 .“ 

20 世纪 70 年 代 初 ,在 量 测 误差 为 鞭 差 列 时 ,证 明了 各 种 意义 下 多 维 算法 
的 收敛 性 . 为 了 说 明 这 种 方法 ,我 们 证 明 下 面 定理 , 先 引入 如 下 一 组 假设 A2.2. 

A2.2.1 步 长 因子 列 |7T,1 满 足 


7,50, DT=%, B<. (2.2.1) 
n n 


$2.2 WU Q3 


A 2.2.2 存在 具有 有 界 连 续 二 阶 导数 的 Lyapunov 函数 V (0) : R^—R, 
满足 : 
XHEX 0 Æ 0, V(0) > 0;V(b) = 0; V(8) — œ, || 8 || 一 oo. 


(2.2.2) 
对 任意 es>0, 有 
sup V3(0)h(0) =- & « 0. (2.2.3) 
lie-gd E>e 
A 2.2.3 WIRE Le, Pn ERETI Ce, 可 依赖 于 0, -1,… 09) ,满足 
Ell e, ll?] < oo. (2.2.4) 


A2.2.4 回归 函数 请 (6) 满 足 
NAN? € Elle, ?lS (a + V(0),n Z0. (2.2.5) 
定理 2.2.1 0E A 2.2.1—A 2.2.4 成立 , 则 对 任意 初始 值 0, 由 算法 
(2.1.5) 定 义 的 
O00, n>, a.s. 
先 证 明 一 个 引 理 . 
引 理 2.2.2 ” 设 对 于 任意 0, V(0)20,1 V(6,),7,  &dE i, Eh, o 是 一 
停 时 , 且 
EIV (On) AIS VO) - Ynlte>m， 
其 中 
Ye 0 DY 0 
那么 Ple<o%]=1. 
证 明 设 
n 
Vasi = Vs + X Yalto>n) 
那么 
EVV,a |f IVO, - Yn lisan) + DNE = V， 


根据 上 鞠 收 敛 定理 (参见 推论 1.2.4) 知 Vsa.s. 收 敛 到 有 穷 极 限 . 故 


= 
È Yalte>a] X9, a.s., 
E 


即 P[ Owl = o]= 0. 再 由 2) Ye = oo f, Po < c] = 1. 
现 来 证 明定 理 2.2.1 
由 A2.2.3 和 (2.1.5) 知 0, R F, 可 测 ,由 Taylor 展开 得 
Vlona) = V(&,) + T,V&(6,)(h(6,) + e,4) 
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+ 1XAOG) + VIGO GO) + e) 


< V(&,) + T,Vi(6,)e i + iy? CIE AC) I? + Il ensa ll?) 
+ T.V 6,)h(8,). (2.2.6) 
其 中 名 的 分 量 在 ,和 b+ 的 相应 分 量 之 间 . 由 EV(b)=V(b)<oco， 
(2.2.3),(2.2.4),(2.2.5) 和 
ElVi(0,)ennl = EIVI(G)Ele, 4|, Ho 0, 
可 递 推 地 得 到 EV(b,)< co, 且 
EIV Ona) 9, I V(b) + c Y (0 V(b)) + TV5(b)A(b) 
x V(O) + cay?(1 + V(6,)), (2.2.7) 


ES 


Vua = (1+ VOGa»D I (1 + c»2,. (2.2.8) 


iet 
由 (2.2.7) 得 
E| Vna lA IK + VC) + c 21  V(8,)) 


+ T,V;(G,)A(8,)) IT Q + cc172) 


[1+ vC IEG + ca) 


+ VIRG TT Q ey» 


= V, + TVGDAG TL G + e172) 


<S Va, (2.2.9) 
HU V, Fn | &dEfR E36, V,a. seg. 


因为 由 Ti < oo M [T C + en «oo ath Vo. s ct e 
V(8,) a. s. "loi. 


对 任意 e>0, 用 ce.o 表 示 16,1 首 次 跑 出 G= 10: 110 0 >e| 的 时 间 ， 
用 oe RRE o.i- REKKE G, 的 时 间 . 
Oi: = minltit > 5,,4,0, € GEL, 
那么 对 于 任意 i, 用 (2.2.3) 式 ,从 (2.2.9) 式 还 可 得 
El Vaal AIK V, + TVE(0,)h(0,) It >n) 


82.3 常 微分 方程 方法 its 


X V, - RT, n 
H13]38 2.2.2 18 p(o,,, X 00) - 1, H0, LLUBCRR 1 最 终 进入 Ge ,由 于 i 是 任 
意 的 , 故 存在 子 列 10 1,04 m 充分 大 时 , 107, 7 0? | <e, h 的 任意 性 推 得 ， 
存在 子 子 列 ( 此 子 子 列 仍然 记 为 1 21) ,使 9 一 % ,2 一 oo; 但 已 经 证 明 
V(6,)a.. s. KB t0, ) 7 V (09) 20, 81/78 (2.2.2) X, tl lE AT 0, 0, n 


oo. 


82.3 常 微分 方程 方法 


鞭 方 法 通常 要 求 所 讨论 的 随机 序列 为 凌 差 序列 ,如 果 这 个 序列 为 相关 序 
列 , 特 别 是 无 穷 相关 序列 , 则 很 难 用 鞭 方 法 处 理 .20 世纪 70 年 代 中 ,对 相关 品 
声 下 的 随机 鼻 近 收敛 性 分 析 , 还 没有 合适 的 方法 . 

1977 年 瑞典 学 者 Ljung. L 在 看 到 形 如 (2.1.4) 一 类 算法 的 收敛 性 与 下 面 
常 微 分 方程 


04) — 0) ha 7 On 
RUP a feu Ue MOD) + en, 
nont EREE - (9). 
下 面 是 用 常 微分 方程 方法 来 证 明 随机 逼近 算法 的 大 范围 强 收敛 性 ， 
考虑 d 维 常 微分 方程 
入 = Ab)，z 二 0，A(b) = 0. (2.3.1) 
定理 2.3.109. 设 存在 可 微 函数 V(9) 满 足 : 
对 任意 0 了 9,V(0)>0;V(09)=0;V(9) 一 oo( || 8 || =); AIHER 0 
z0, 


Vi(0)h(0) < 0. (2.3.2) 
那么 从 任意 初 值 开始 , 当 :一 co 时 ,方程 (2.3.1) 的 轨 线 必 趋 于 0, 即 9 是 方 
程 (2.3.1) 的 大 范围 渐 近 稳定 解 . 
下 面 引入 条 件 组 A2.3 
A2.3.1 y,20,y,—0, My, = oo. (2.3.3) 


A 2.3.2 存在 二 次 连续 可 微 的 Lyapunov 函数 V(9) 满 足 :对 任意 04 


IA Jo MIDEREK E 
8,V(0)>0, 
V(89) = 0,V(0) -- œ( || 0 l| — œ), (2.3.4) 
对 任意 07508, 
Vi(O)h(0) < 0. (2.3.5) 
^A2.3.3 WERE Le, | 满足 :6 = e+ ww, 其 中 D yena. s. 收敛 ， 
Un > 0(n--9), a.s. (2.3.6) 


Æ 2.3.2 EH A2.3.1 SF A2.2.,5A2.3.2 中 去 掉 了 A 2.2.2 中 
Va(* ) 的 有 界 性 ;这 里 不 要 求 A 2.2.4, 这 是 因为 ODE 法 要 预先 假设 算法 |0,1 
一 致 有 界 ,也 就 是 说 A 2.2.4 与 假设 算法 一 致 有 界 在 保证 算法 收敛 有 相互 蔡 
代 作用 .这 里 强调 A 2.3.3 比 A 2.2.3 弱 得 多 .满足 A 2.3.3 的 |e, | 不 仅 包含 
A 2.2.3 的 园 差 列 , 且 包 含 很 大 一 类 无 穷 相关 的 随机 列 . 

下 面 给 出 ODE 法 证 明 的 RM 算法 大 范围 收敛 性 定理 . 

定理 2.3.3” 设 函数 h(): RI-~R! 连续 , 且 条 件 组 A 2.3 的 各 条 件 成 
立 ,还 假设 (2.1.4) 给 出 的 {0,1a.s. 一 致 有 界 , 则 对 任意 初 值 00, 有 

0,- 0, no, a.s. 

证 明 分 四 步 进行 .以 下 固定 wE 0, 随 机 向 量 6 的 样本 值 0,(&) ,仍然 
记 为 0,. 

第 1 步 。 把 19,1 通 过 线性 插值 变 成 连续 函数 ,然后 逐次 向 左 平移 单位 长 
得 一 族 连 续 函数 . 今 


nl 
t= to=0, m(t)=maxln:t mtl. (2.3.7) 


B, = bns Qoi. teas t € Du) (2.3.8) 


Yn 
类 似 地 , 记 
E 
= ein, (2.3.9) 
41 为 内 插 长 度 为 ys 的 q, 的 线性 内 插 . 
再 定义 连续 函数 族 
Olt) = Pens nzl. (2.3.10) 


第 2 步 证 明 |6,(z)1 满 足 Arzela-Ascoli 定理 的 条 件 , 根 据 该 定理 得 一 极 
限 函 数 6(z). 设 


6-6, w= on, t€ltta) (2.3.11) 
显然 ,由 (2.3.7) 一 (2.3.10) 知 ， 


8,0) = b+ | OG) + 5)ds + gan, 
i 
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事实 上 ,只 需 证 明 
PC) — 8 = JO (0 + 508 s (2.3.12) 
i 
M t= t, 时 ,(2.3.12) 的 左 式 等 于 


ltn) — 00= 8, — 00 = S(O - 6) 
5 


= SYK = Dalh) + e) 


ni 
2 uOX) + Nye 1 3 ym 
rer] io 


i 


[noa * fous + gn 
o 


o 


LU] 


= [cio «ias at. 


M nr t, Bt, ZMENE. 
根据 定理 的 假设 ,对 任意 固定 w, l0, C1, o) EBA R, RKN E EÈ 
等 度 连续 的 .对 任意 A>0, 有 


l6, A) - (01 «| 


| (0 + ids 


+ | goesra 7 arsan ll 


(2.3.13) 
由 条 件 A 2.3.3 得 , 当 : 一 co 时 ,4! 趋 于 有 穷 极限 , 故 (2.2.13) 右 边 第 2 项 , 当 
4-70 时 ,关于 n 是 一 致 地 趋 于 零 .同时 根据 A 2.3.3 和 (6,) 在 (0,co) 上 有 
界 , 知 (2.3.13) 右 边 第 1 项 , 当 A-~0 时 ,关于 ”也 是 一 致 地 趋 于 零 .对 A<0 
的 情形 ,可 以 进行 同样 的 推导 . 故 |0,(z)| 是 等 度 连续 的 .由 Arzela-Ascoli 定理 
知 ,存在 子 列 ! 9 G) | 在 任何 有 限 区 间 上 一 致 收 伍 于 一 连续 函数 0(1). 
第 3 步 ” 证明 9(z) 满 足 
ò, = h(0,). (2.3.14) 
设 子 列 10, (IBAF 0C), ko. H 


On, CE) - 6,0) = (GG + m) + Cs + m) Dds + gz + n) - gC) 


0 
由 于 h(9(*))+ VC RE RRSIÉG L4 koot}, V (s+ n,)770,0(5 + n) 
6(s). 事 实 上 
|O(s+ m) = 8G) | x Ols m) — Bols + n) | 8a C) 7 6G)|. 
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Mj pss n< ty ull, 


|8s + m) - (s + n)| = i tm) - tes, - 6| 


x [Un f 6 | 

= yp | hly + e| 0, k — oœ; 
On (t) -60)|-- 0, k— o. 
由 控制 收敛 定理 得 


AC) = 00) = fh(0(s))ds, 


o 


即 0=A(b%)， (20. 
第 4 步 从 6(t) 一 多 ,too, 到 0,6? i9 oo. 
Hi A 2.3.2 及 定理 2.3.1 知 09 为 6(z) 的 大 范围 渐 近 稳定 解 ,于 是 有 
0(1) — 05, 1 o. (2.3.15) 
为 了 证 明 0, 6^, n-- co, EUIUEWI EF 10, KERTI, EFFI 
918) 09. 为 了 简化 记号 ,我 们 证 明 |10, | 存在 子 列 收敛 到 69. 事实 上 ,对 于 任意 
e>0, 存 在 to, 使 得 当 £2 1 时 , | 9(1) 一 09| < e/2, FTU Ln, HE 6, COTE 
[0,to+1] 上 一 致 收敛 于 9(+); 利 用 tn A 0o ,对 每 个 tn Wer, 满足 tu mts 
*n tn, ua 
On, - 0°|= Cin) = 0°) 
«|0G,) - Cto + n) | |On Cto) = 969 | + 16(to) - €]. 
其 中 
[0G,) = Gy + )|« 


DLE 
Wo) ee a) 0, kon oo 


8,7729, koo, 


82.4 Lyapunov 函数 方法 


82.3 在 算法 有 界 的 条 件 下 ,利用 A 2.3.2 作为 常 微分 方程 大 范围 渐 近 
稳定 的 充分 条 件 ,证 明了 算法 的 大 范围 收敛 性 .ODE 法 的 不 足 是 事先 假定 算 
法 有 界 ,也 比较 繁琐 ,要 求 回归 函数 连续 , EUIS RETE A 2.3.2 不 严格 满足 时 使 
用 ,不 易 用 于 算法 稳健 性 分 析 . 本 节 不 用 ODE 法 ,直接 用 Lyapunov 函数 的 性 
质 ,在 算法 有 界 的 假设 下 证 明 收 敛 性 .我 们 将 证 明 比 定理 2.3.3 更 强 一 些 的 结 
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果 . 用 
d(Sı,S2) = infilz-yl:zEeSyeSz|， (2.4.1) 
表示 欧 氏 空间 中 两 个 集合 S1, S, 间 的 距离 .引入 条 件 组 A 2.4. 
A2.4.0 函数 请 (`):R-~R, 是 Borel 可 测 ,在 有 界 集 上 有 界 , 当 9€ J 
时 ,h(0)=0. 
A2.4.1 同 A2.3.1. 
A2.4.2 (a) 存在 二 次 连续 可 微 函数 V(6)( 不 一 定 非 负 ) : R^ R ,对 任 
意 A>5>0, 有 
ay, AT CO) Val) <0. (2.4.2) 
(b) V(J)= const; RI T f£ 3&0, 8 f/(8,7) 20,4 fid (V(0), 
V(J)) »0,3x 
VQ) = ly:y = V(60),0€ Jl, 
记 
m, T) = max[ m Ys < T]. (2.4.3) 
A2.4.3. 7410, | 收敛 时 ,有 


men. T, 


) 
lim lim sup 二 | Myed-e0e TELT] (2.4.4) 


£ 2.4.1 当 h(*) 连 续 时 ,(2.4.2) 等 价 于 h"(0) Va(0)<0, YOÉJ; 4 
(2.4.4) 成 立时 ,ynen 110, noo. 

注 2.4.2 与 上 节 条 件 比较 ,现在 不 要 求 hO ) 连 续 , 且 h(: ) 的 零点 不 一 
定 是 单 点 ,可 以 是 一 个 集合 儿 当 及 (:) 连 续 , 且 = 时 ,显然 (2.4.2) 等 价 于 
(2.3.5), 而 且 A 2.4.2(b) 一 定 成 立 .我 们 也 不 要 求 上 01 一 时 ,V (909) 一 o%. 
此 外 , 当 A 2.3.3 成 立时 ,A 2.4.3 一 定 成 立 . 

如 果 对 任意 ion <i< m (€ V(6) € 0», V (Op Kò, V(b, ) >82, 
成 立 , 就 称 V(b。 ) V On ) 穿 越 区 间 [61,6;]. 

定理 2.4.3 PHRA w RIFA 2.4.0~A2.4.3 成 立 , 取 定 初 值 9,, 由 
算法 (2.1.4) 定 义 的 9, 有 界 , 那 么 对 此 w,d(6,,J)->0,m->co. 

证 明 先 注 意 , 当 |6, | 有 界 时 ,在 A 2.4.0 和 A 2.4.3 条 件 下 ,对 19,1 的 
任 一 收敛 子 列 6, | 可 找到 c >0 和 T >0, 使 得 对 任意 TELO, Ti), FUE kr, 
4 k>kr, ny mm (n, , T)BE A 

l8, - 6, ll «cT, (2.4.5) 

先 证 明 
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limd( V(8,), V()) = 0, (2.4.6) 


心 


Vi = lim inf V(8,) < lim supV(8,) = Vs 
(O0 Vio Vai V. H limd( V(6,), V(JJ)7 d(V, V(J)P0.HUF 
10, UE RFA 0, | 收敛 到 某 个 9, 从 而 
4(V(8), VU)) = Jimd(VY(b)，V(CJ)) > 0， 
故 d(0,J):=3>0, 取 了 充分 小 ,由 此 及 (2.4.5) 式 及 0, >Â, (boo) 51. X} 
充分 大 的 上 , 当 nu msm(n, , T), 
4(6,,]) > 872, (2.4.7) 
用 中 值 公式 及 (2.4.5) 知 ,存在 &: |l E- 0, | eT ,使 
V( ma) = V (On) 
7 (Omen, ma = 6,)V,() + (Onen ma 7 6,) CVCE) - V,(O)), 
(2.4.8) 
由 于 0 一 9, 当 & 充 分 大 时 , IL 6-0 || 2cT , (2.4.5) 8, T-- 08], 
(2.4.8) 中 最 后 一 式 的 数量 级 为 o(T), 另 外 ,由 (2.1.2) 及 (2.1.4) 及 (2.4.8) 
知 


V(65,:4) = V(6,)-. 2] Yota Vað) + o(T) 
"m 
M VACO) VG 


EA 


mi, T) 


+ 2) yh'(0)( Veo(0) - Vs(6)) 


iB» 


mon T) 


+ M nViO)eato(T), (2.4.9) 


从 (2.4.3) (2.4.5) 及 Va(') 的 连续 性 知 ,上 式 右 端 第 2 项 为 o(T), 用 
条 件 A2.4.3 知 ,第 3 项 的 范 数 , 当 人 ->co 时 ,为 o(T). 由 !b,| 的 有 界 性 ,利用 
条 件 (2.4.2) 及 (2.4.7), 从 (2.4.9) 知 ,存在 a >0, 及 充分 小 的 工 >0, 只 要 大 
充分 大 ,就 有 


V (Omen T) = V(8,) S- aT, (2.4.10) 
4 ko. f 0<- aT E (2.4.6) ir 
Qi V. € V;, R Vs, Vz 中 至 少 有 一 个 不 属于 立 (J) ,不 妨 设 VIEV(]) 
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(VG) VG) IWA d (V4, V ()) 20, TEE €20,08 95: Vi e 
<ô: = Vi- e, H. (234, VJ)) 20, A. V4, Va 的 定义 知 ,V(0,) 无 穷 次 穿越 
[34,02] BUE TESECBOERU | n, ma l, ni X m, X mr 使 对 任意 i n i m, 
91€ V(6,) X05, V(6, ) ài, V(8,, )2705 Hir. 118, || c, A 2.4.0 及 注 
2.4.18 
Onst 70, = Y.((,)) + ensi >00, bomo, 

但 是 V(8, 4) 2 87 V(0, ) T. VOER, MC V(6,)-70j, ko. AF 
9016, | 中 选取 子 列 (仍然 记 为 16, DREA 8, 从 而 有 

4(V(8), VJ) = limd( V(6,), V(J)) = d(3, V)) > 0, 
故 d(8,J):=8>0. 以 下 如 同 (1) 中 一 样 地 进行 讨论 也 可 得 到 (2.4. 10). 53 
Jb HUFXHER i n < i< m, V(8, DK, V(6,, ) 82,81 € V(6,) « 32 成 
立 , 而 且 从 (2.4.3) 知 ,对 充分 小 的 工 ,有 m On, T) € m, BB 

V(6,0,.7)) = V(6,) 20, 

这 与 (2.4.10) 式 矛盾 . 故 Vi, V; 均 属 于 VO), BI. 4.6) Rr. 

现 利用 条 件 A 2.4.2 之 (b) 来 让 明 d(b,,J)-0 

(1) 设 对 任意 0EJ,V(9) = ,根据 (2.4.6) 知 V(0,)>w, 若 假设 存在 子 
510, >9, 由 (1) 的 证 明知 道 ,必须 有 a(8,])=0. 由 于 的 任意 性 推出 
d(6,,J)-*0. 

(2) 设 对 任意 0, FUE 4(0,J) 20,84: d(V(0),V(J))>0, 又 设 9, 为 
6, 的 任 一 收敛 子 列 ,g 0,9. (2.4.13) 8 4(V(8), V()) -0,4(0,7) -0, 
tk d(0,,])-»0. 

下 面 定理 适当 加 强 对 h 的 要 求 ,但 是 去 掉 了 Lyapunov 函数 的 存在 性 条 
件 A2.4.2. 

定理 2.4.4 设 人) 一 次 连续 可 微 ,supf(>)S7(9),0E JJ 为 有 界 集 


(FCO) = const, 0€ J ERIE A (0) = f,(6) ,h(0) -0,0€ J ,还 假设 条 件 A2.4.1 
及 A 2.4.3 RE, 且 对 取 定 的 初 值 6， 由 算法 (2.1.4) 定 义 的 9, 有 界 , 那么 
d(8,,J)-*0. 

证 明 根据 定理 2.4.3 只 需 证 明 存在 满足 A 2.4.2 的 V(6). 取 V(')= 
=F), A 

h"(0)Ve(0) =- || ACO) II?, 

由 于 V(6) 在 J 上 取 常 值 , 故 A 2.4.2 成 立 . 

定理 2.4.5 ”在 定理 2.4.3 2.4.4 中 把 A 2.4.1 加 强 为 
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A2.4.1 y, IE, y, > 0,y, 0, > yn = co, 且 存在 常数 /使 对 任 


EX nl, 
Y4n - Ys aus (2.4.11) 


把 A 2.4.3 HOS 
A2.4.89 en = e, +U, Un >00, Deni —0, 
名 


其 他 条 件 不 变 , 那 么 两 个 定理 的 结论 仍然 成 立 . 
证 明 由 于 w~~0, 故 若 能 证 明 


Drei 0, mmm. T), k>, (2.4.12) 
"e 


那么 A 2.4.3 成 立 ,从 而 定理 成 立 . 
当 A 2.4.3' 成 立时 ,由 (2.4.11) 知 ,对 m inu mm (n T) H 


m m mici m-l $ 
| Èren = [364 2 Yn, Deini *MGi- 7i) Dej 
<il Sealt mal Sent 


2 j 
tana nsa 
itn m 


|--0, &- o. 


第 三 章 ”具有 局 部 有 界 矩 随机 逼近 算法 的 
几乎 必然 收敛 性 


本 章 讨 论 形式 非常 一 般 的 随机 通 近 算法 的 行为 (由 "平均 "微分 方程 的 解 
来 欢 近 和 渐 近 分 析 ). 在 下 一 章 讨论 它们 的 应 用 . 83.1 给 出 记号 和 一 般 的 假 
设 .$3.2 和 8$3.3 包 含 了 在 后 面 $3.4 到 $3.8 需要 的 一 些 准备 工作 . 


$3.1 一 般 算 法 的 引进 


3.1.1 算法 模型 


本 章 考 虑 的 算法 模型 具有 形式 
0,47 On + Yni HlO, Xa) + Yorini COn Xari) (3.1.1) 
其 中 0, Te R^ 中 变化 ,状态 向 量 X, 位 于 Rt RATER HATH. H Mo, 
是 从 Re x R* 到 Re 的 两 个 函数 . 
假定 随机 变量 bo, Xo,… X,,… 是 定义 在 概率 空间 (0 ,元 P) E, P, 表示 
由 随机 变量 go, Xo, X, 生成 的 事件 s 域 ,3( R4) 是 R 的 Borel 集 全 体 .我 们 
将 总 使 用 下 面 的 假设 
(A.1) (7 )wen 是 一 个 正 实数 不 增 序列 ,满足 y, = oo. 
(A.2) 存在 R* 上 转移 概率 族 |11, = I (A): x € NR, A € (I), 
0 € R41 ,使 得 VA € ARE), 有 
PIX, € A[7,]2 t (G.A). (3.1.2) 
上 面 式 子 蕴涵 着 ,对 任何 Borel 函 数 g(b,z)( 或 是 正 的 ,或 满足 
Elg(0,,Xnt1)|<o%), 有 


Elg(0 Xaa) lAl = [e( s (Xsdz). 68.1.3) 
公式 (3.1.3) 表 明 随机 变量 
Ji 6, 2, X, 9.42) 


是 g (On X, DRF 9, 的 条 件 期 望 的 一 个 版 本 .假设 (A.2) 说 明 二 元 列 (X,， 
扩 ),>0 是 一 马尔 可 夫 过 程 , 它 的 转移 概率 依赖 于 (因为 y, 和 Am 依赖 4), 因 
此 它 是 非 时 齐 的 马尔 可 夫 过 程 .如 果 y, = y( 具 有 常数 步 长 ) 和 o, = p, 则 是 时 
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齐 的 . 

wH: 

a. P, ,表示 在 初始 条 件 Xo — r, bo=a 下 ,(X, ,9,),>0 的 分 布 . 

b. 如 果 更 明确 地 ,对 于 给 定 的 序列 (7y, , p, ),>o, PO PO 表示 具有 初 
始 条 件 Xo= x, 07 a 时 ,(X, ,0,)wz0 的 分 布 ,那么 (X, ,40,44) zo 关于 F, 
IA PE Hi d Orte 

c. 把 轨迹 n0, 表示 为 连续 时 间 过 程 ,在 以 后 是 有 用 的 .为 此 目的 , 令 


to = 0,5 = Visita = D, Yis (3.1.4) 
e 


60) = M(n c t€ 6, (3.1.5) 
A 


其 中 1(A) 表 示 集 合 A 的 示 性 函数 (常用 14 表示 ). 因 此 在 时 间 v, Ae, +T 
之 间 对 0(1) 行 为 的 研究 可 化 归 为 对 n 和 m(n, 了 ) 之 间 的 整数 k 09.0, 行为 的 
研究 ,其 中 
m(n,T) = inflk:k >n, Yna t7 * yn TI. (3.1.6) 
为 简单 起 见 ,我 们 记 
m(T) = m(0, T). (3.1.7) 
d. fo BRRR Fr 0) : Rt x RIR, KF 0 的 偏 导数 ,而 afo 表示 函 
数 


z -frod (x,dy). 
D 


3.1.2 例子 


例 3.1.1 条 件 线 性 动力 系统 算法 
在 这 样 的 算法 中 ,状态 向 量 ( X, ),so 是 按照 下 面 递归 式 演化 
Xia = A(,)X, + b(0,) Wi, (3.1.8) 
其 中 ( W, ),>o 是 独立 同 分 布 随机 变量 列 ,A(9) 和 B(6) 是 0 的 矩阵 值 函数 
例 3.1.2 ”独立 线性 动力 系统 算法 
在 例 1 中 当 A AB 是 不 依赖 于 9 的 矩阵 时 出 现 这 种 情况 . 
例 3.1.3 递归 决策 反馈 均衡 器 (recursive decision feedback equaliser) 
(参见 文献 [10] 第 一 部 分 的 1.3.2.1 小 节 ) 
递归 决策 反馈 均衡 器 情形 导出 一 个 状态 向 量 T= (YT, Ott 
Yasi = AY, + BW, 
Toa = flOr, Yuan). 
其 中 A 和 日 不 依赖 于 6,( W。)。>o 是 独立 同 分 布 随机 变量 列 . 


(3.1.9) 


$31 一般 算 法 的 引进 43 


例 3.1.4  Robbins-Monro 算法 

把 这 里 提出 的 一 般 理 论 和 随机 算法 的 经 典 理 论 Robbins-Monro 算法 结合 
起 来 是 非常 重要 的 .这 一 理论 下 的 所 有 算法 具有 形式 (3.1.1) ,并 且 满足 假设 
(A.1),(A.2) 和 下 面 的 Robbins-Monro 假设 

(RM) :对 所 有 的 ,有 I Cr dz) = po(dz), 其 中 jwo(dz) 是 Re 上 的 一 个 
概率 分 布 . 

3.1.3. XT H,p, WI HRE 


我 们 将 经 常用 Ho 表示 函数 一 H(9,z), 并 不 表示 偏 导数 .我 们 总 假定 
D AER" 中 一 开 集 ,函数 H M o, 满足 : 
(A.3) 8 D 的 任何 一 个 紧 子 集 Q, 存 在 常数 C, Co qi ai (依赖 于 
Q) ,使 得 对 所 有 的 0€ Q 和 对 所 有 的 有 
G) [HO a) | Cu Ob Eel). 
Gi) | p, CO) 过 Ca(L+ bel). 
在 上 面 公 式 中 ,要 明显 地 表达 依赖 于 Q 时 ,我 们 将 记 为 C(Q ) 或 者 
qi CQ). 
我 们 引入 的 下 一 个 基本 假设 似乎 有 点 “抽象 ”, 但 是 后 面 的 叙述 和 应 用 中 
将 发 现 验 证 这 个 条 件 是 研究 算法 的 关键 . 
(A.4) 存在 一 个 D 上 的 函数 h ,对 每 一 0€ DD 存在 一 个 Rt 上 的 函数 
vo CERE 
G) 在 D 上 六 满足 局 部 Lipschitz 条 件 . 
GO 对 所 有 的 9€ D, (1 -Il)w = Ha - h(0). 
Gii) 对 D 的 所 有 紧 子 集 Q ,存在 常数 C3, Cs,g3,gq4,XE [1 人 2,1] 使 得 对 
所 有 的 0,0EQ， 
v(0,7) | CGA + |l). (3.1.10) 
Hips Cr) - Hv Cr)| C410 - 9 PO lali). (3.1.11) 
关于 (A.4) 的 注 : 
a. BURG C) ,Ho(*),h(09) 取 值 于 R*. 条 件 (A.4-i) 蕴 涵 着 对 每 个 
i=1,…,d 有 
CI- T5), = Hå - hi(0), 
其 中 上 标 i 表示 R 中 第 i 个 坐标 . 
b. 我 们 经 常 在 例子 中 为 了 检验 (A .4), 将 证明 存在 一 个 在 D. 上 满足 局 部 
Lipschitz 条 件 的 函数 , 且 对 任何 6€ ,存在 R* 上 的 一 个 函数 w 使 得 
(IT- Il)we = IH; - h(0), (3.1.12) 
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而 且 ,对 D 上 任何 紧 子 集 Q ,存在 常数 C3,C4,d3,44,》 使 得 


| eor) | C40 + trl), (3.1.13) 

| eor) 7 oy Gr) | C418 — 8 I + x 12). (3.1.14) 
事实 上 ,只 需 置 

va = wa + Ha - h(0). (3.1.15) 


就 得 到 满足 (A. 4-1) E vs 和 有 .那么 显然 Mpo = wo ,进而 由 (1.1.14) 得 
(1.1.11), 由 (A.3-i) 和 (1.1.13) 导 出 性 质 (1.1.10). 
c. 关 于 (A.4) 的 重要 性 ,注意 如 果 对 于 所 有 的 9, 具 有 转移 概率 IT, 的 马尔 
可 夫 链 是 正常 返 的 ,具有 不 变 概率 Ty, 并且 如 果 我 们 置 
4G) [Hy GO rs) G.1.16) 
(或 者 更 简明 地 DH; ) , 则 函数 H — h(9) 关 于 T 的 积分 是 零 , 因 此 被 称 为 
Poisson 方程 的 (A.4-i) 有 一 个 解 vo. 而 且 对 大 多 数 情形 ,当下 式 右边 级 数 收敛 
时 ,这 个 解 可 以 被 表示 成 下 面 形式 
wo) = z I CHs - h(0))(y), (3.1.17) 
(参见 第 四 章 ). 在 应 用 路 (0) 的 存在 性 常 来 源 于 不 变 测度 Dy 的 存在 性 ,特别 
是 当 对 于 一 个 “充分 丰富 "的 R 上 函数 集合 中 的 g 有 
Tg = lim Ig . 
有 意思 的 是 ,甚至 当 H 不 是 正则 的 (比如 它 关 于 9 是 不 连续 的 ) ,对 于 充分 
“ERE D I1, RERA. 1:17) H2 (Hs - h(0)) n 三 1 各 项 的 正则 
性 隐 含 着 性 质 (1.1.11). 
d. 这 里 给 出 的 随机 算法 的 研究 其 主要 思想 是 基于 (A.4) 得 到 非常 一 般 的 
结果 ,并 且 对 于 具体 算法 的 研究 化 归 为 验证 这 个 条 件 (A.4). 
3.1.4 ”例子 ( 续 3.1.2) 


例 3.1.5 ”这 是 算法 (3.1.8). 假 设 
E| W.|? =} < eo. (3.1.18) 


如 果 我 们 记 fra, = AmnAm-1…Al, 那么 公式 (3.1.18) 给 出 


Xa = IHAG0x, + S TI ACO) | BC) Wisi  B(,)W, 


(3.1.19) 
我 们 假设 


sup! BC) | & M. (3.1.20) 


$33 一 般 算法 的 引进 ELE 


暂且 还 假设 
supsc ol A(9)|<p<1. (3.1.21) 
现在 我 们 看 到 对 于 任何 Re 上 函数 g, 每 当下 式 右边 期 望 存在 , 即使 得 
1g(z)1 入 CGI+1zl9) 时 ， 
Il,g(x) =Eisg(4(O)z+B(O)WD (3.1.22) 


类 似 地 ,对 于 任意 n 
g(x) = E|g(A"(0)x + Sar *(0)BGO)W,)], 
根据 ( We ,人 -) 是 同 分 布 的 ,我 们 可 以 写 
igl) = E|gCA"(0)a + YXAHG)BOOW,)]. (3.1.23) 
由 (3.1.18),(3.1.20) 和 (3.1.21) 给 出 的 随机 变量 序列 
(A"(0)x + Y AIGODBODW, ), o 
E 
在 Le 中 收敛 到 
U-(b) = SAO BO Ww,. 
因此 对 于 任何 满足 |g(x)|<C(1+ Lalo Borel 函数 g, 有 
lim Ig (x) = EÍIg(U4)l, 
这 说 明 不 变 测度 的 存在 性 .于 是 我 们 有 (如 果 qua) 
A(O) = [ni ryy) = EC CU CP, 
且 Poisson 方程 (A.4-2) 的 解 v, 的 存在 性 可 以 通过 联合 考虑 级 数 (3.1.17) 和 
(3.1.23) 得 到 (参见 第 四 章 ). 
因此 我 们 知道 如 果 ACOM B(b) 关 于 0 是 局 部 Lipschitz 函数 , 则 对 于 任 
fij Lipschitz&& SK g ,由 (3.1.23) 给 出 的 表达 式 了 Wg (xx) 说 明 对 于 任何 zx， 
Tg(z) 是 0 的 Lipschitz 函数 .如 果 函 数 Hs(y) 关 于 9 Fl y 的 正则 的 ,那么 验 
证 (A.4) 的 全 部 假设 是 不 困难 的 .关于 这 一 点 ,我 们 将 在 第 四 章 中 给 出 更 加 详 
细 的 讨论 . 这 里 我 们 将 说 明 在 关于 A(9) 和 H 的 较 少 严厉 的 条 件 下 ,(A. 4n) 
成 立 . (3.1.21) 将 被 4(9) 的 特征 值 一 致 严格 小 于 1 的 条 件 所 和 替代; 如果 W, 
的 密度 是 充分 正则 的 ,HH 可 以 不 必 连 续 . 
例 3.1.6 Robbins-Monro 算法 (参见 例 3.1.4) 
EUR Ix A) 9 pe(4), 条 件 (A.4) 可 以 大 大 地 简化 .我 们 假设 对 于 任 
fal 0 积分 


ACO) = [HC 2) (2), (3.1.24) 
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存在 , 则 (8, x)= HC a) CA. 4-8) ,并且 IIw(9,x)=h(0) 是 不 依赖 于 
.因此 整个 的 (A.4) 能 够 由 如 下 惟一 的 假设 得 出 .由 (3.1.24) 定 义 的 h 是 局 
部 Lipschitz 的 .实际 上 ,我 们 可 以 直接 研究 RM 算法 ,而 不 需要 运用 (A.4) ( 参 
见 下 面 的 3.3.7 节 ). 

在 本 章 我 们 将 考虑 这 伴 一 种 情况 , 即 在 给 定 阶 g 下 ,状态 向 晤 X, 的 9 阶 
EKF n 有 界 , 但 是 至 少 0, 停留 在 某 一 紧 集 内 .我 们 将 使 用 矩 有 界 性 ,来 导出 
L? 上 界 , 并 直接 得 到 包含 了 本 书 所 考虑 的 大 多 数 应 用 的 结果 . 

首先 我 们 有 “局 部 有 界 性 "假设 

(A.5) IIF D 的 任何 紧 子 集 Q 和 任何 g >0, 存 在 p (Q) « co ,使 得 对 
任何 的 n,xrER*,a€E R^ 44 

Era lI € Qu& S DA | Xa [DES um O(QDO 8 Elf). 
(3.1.25) 
注 (1) 如 果 (3.2.1) 对 q 是 真 的 , 则 对 q <g 也 是 真 的 , 带 有 
p, (Q) 2 0, (Q), 

(2) 在 (A.5) 的 定义 中 ,不 等 式 (3.2.1) 被 假设 对 全 部 q >0 成 立 .事实 上 ， 
在 本 章 的 证 明 中 ,我 们 将 始终 使 用 一 个 较 弱 的 假设 , 即 只 要 对 充分 大 的 q E 
在 (A.3) 和 (A.4) 中 ,给 出 的 指数 g; 的 函数 大 ),(3.2.1) 是 有 效 的 . 

例 3.1.7 对 算法 (3.1.8), 公 式 (3.1.19) 和 假设 (3.1.18),(3.1.20) 和 
(3.1.21) 隐 含 , 对 充分 大 的 n 有 

EJI € Que S n) X, al" Ep zl+ 5 225p *MIW,A|?] 
& GM lt Y rM, 
[er] 
其 中 C, 是 一 个 适当 的 常数 ,进而 条 件 (A.5) 成 立 . 

例 3.1.8 在 上 例 中 ,如 果 A 和 BB 都 是 不 依赖 于 6 的 , 则 有 比 (3. 1.25) 

更 强 的 不 等 式 


lt<md+1zrl’) 


Ell X, 


83.2. 一 般 算法 的 分 解 


我 们 看 到 如 果 y, 趋 于 零 ,算法 9(1) 有 遵循 具有 初始 条 件 a = bo 的 微分 
方程 
8' = h(0(1)) (3.2.1) 
的 (确定 性 ) 解 的 趋势 .这 是 因为 B Cr, ) 是 接近 (Euler 逼近 ) 到 
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0,4 = 0, + Y, ah (On), 


ðo = a. (3.2.2) 
的 解 和 因为 算法 (3.1.1) 可 以 被 写成 如 下 形式 
0, = On + Yuah (9) + e. (3.2.3) 


其 中 
En= 0,44 7 On + Yu h CUL). 
= Y»al HO, X44) — &(5,) + Yoapsa( 6X4], (3.2.4) 
对 小 的 y, 是 一 个 小 的 波动 . 
因此 ,关于 解 (3.2. 1) 行 为 与 算法 行为 的 比较 依赖 于 得 到 的 波动 6, 的 上 
界 .更 一 般 地 , 接 下 来 ,我 们 将 需要 下 面 表达 式 的 上 界 
En($) = $(6,,4) — 9(6,) — Ynah (6,)h(8,). (3.2.5) 
4 $ ERR 的 C? 函数 ,并 具有 有 界 的 二 阶 导数 .对 于 D 的 紧 子 集 Q ,我 们 
记 
Mo(Q) = supl $(0)|, 
MI(Q) = gpl $()l, 
M:(Q) = ggi CI , 


M: = spls'ti, (3.2.6) 
则 存在 一 个 矩阵 RCÓ,0,0 E 
$0) - $'(8) - (0 - 6)&(8) = R($,0,0°). (3.2.7) 
并 对 任何 的 0,OE Re 有 
I RCA,0,0) | Mil 8 - 0 |?. (3.2.8) 
因此 ,对 任何 的 


eal) = $ (DU — 6 — yh (8,)] + RC 6,0) 
= Yea * (OUH O, Xu) = ACO) ] + Y1a* (pia (0 XL) 
+ R($,0,,0,.1) (3.2.9) 
和 
| R60.) < a Ma| HOO Xis) + Y, apia (6. Xiri). 
(3.2.10) 
如 果 (3.2.9) 写 成 形式 
l$) = Yea (ODUHGO, Xa) — h(O)T + AL. 
利用 (A.4-ii) 有 
gb = DCO) — a (1) h C) 
= Yen (OD HO X4) 7 &(6)] +A} 


48 第 三 章 ” 具 有 局 部 有 界 矩 随机 遂 近 算法 的 几乎 必然 收 生性 


- Yat (G0 [v Xes) =- Tayo, OX) J+ Al 
= Yeb (GO) Xe) = Iava O0) ] 
+ Vasi (Oh) [Toyo OG) = Dova, OG] AL 
=A} + A} +A}. 
事实 上 ,这 一 计算 只 适合 于 pE DD, 因为 h 只 定义 在 D 上 .这 就 是 我 们 对 DD 
上 固定 的 紧 子 集 Q 引入 下 面 定义 的 原因 
t = r(Q) = inf(k:0 € D). (3.2.11) 
4 
dex) = $ (CO) Is (x), (3.2.12) 
则 在 ir 三 nl 上 ,对 r<n 我 们 有 


Ze= Sut + AD + Zona (Gs OG) = du Ot) 
= X (Al + AD + Yide OC) 

i 

+ 2o nay OG) = go OG) 


nl 
(OR = Yo, (X) = Ye, (X). 
因此 我 们 有 下 列 引 理 
引 理 3.2.1 X rn Kiran] 上 有 


ges a e ifa re 
eP = Y,a$ (D [v Oa) - Tv, (X,)], 
EP = Vasila 0S8) = de O0). (x) = A (Os), 
EP = Ova = du OQ). 
ei? = Yiaf Go a0. Xia) + R04). 
Ter = Yeade OG) 一 Yo, (Xan). 
我 们 指出 利用 (A.1) 和 (A. 4-ii) 可 以 得 出 ,对 任何 的 gc Q 
Ilos(2) = EG (X) = CSE, 40 + [Xi| 9) Ca + lel), 
即 


Supse o] Hoole) |< Cs (1+ lal”). (3.2.13) 


$3.3 Liit 149 


从 (3.2.6),(3.1.10) 和 (3.1.11) 可 以 得 出 
supaea| Cr) | MiCsqs (1 + |l), (3.2.14) 


supee ql dox) — dw Cx] 
< MiC,Q + | xl%)18 - 8 |è + MiCsus (1 + 1z19)18 — 0]. 


(3.2.15) 


$3.3 二 估计 


本 节 的 目的 是 证 明 下 面 命题 3.3.6, 它 给 出 “扰动 "的 均 方 上 界 
vi 
,sup ,| 2a]. 
(BR 83.2e, 的 引入 ) 其 中 c 是 过 程 |9, | 离开 紧 集 Q 的 时 间 . 

在 本 节 ,Q 是 一 国定 的 紧 集 ,出 现在 结果 中 的 “常数 "可 能 依赖 于 Q ,正如 
它们 依赖 于 假设 中 的 参数 Ci s ,4 以 及 同 给 定 的 函数 $ Xe CM, C) ( 参 
见 (3.2.6)). 另 一 方面 ,固定 ,它们 对 于 满足 ,过 x 的 序列 |,;n 宇 0| 是 有 
效 的 . 当 它 们 不 依赖 于 Q, 结 果 是 明显 的 . 

引 理 3.3.1 ”存在 一 个 常数 Ai 使 得 

Elyga < 0| S <A + Lei) Da. 
这 里 使 用 (A.3) 和 (A.4) 假 设 中 的 常数 
Ai Aipa,( QIMI QI CH Q), 
常数 A 不 依赖 于 Q. 进而 ,在 |r = ool E, Siea. s 收敛 ,并且 如 果 
D ria < co CEE L? 中 收敛 . 


证 明 设 
£c 3 D halO + 1< e) Go [Taya OG - How (Xi) ], 
我 们 注意 到 “ 
1 9| Sins Iz]. 
因为 


EUG +1 < Ou Ga) AE = IG 1 os OG). 


所 以 } s,| 是 一 个 款 , 并 且 因为 条 件 期 望 在 L? 中 是 一 个 压缩 算 子 , 故 有 
EUG +1 < r) | CO oy OG) |*| 
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EEG +1 < r) |$ COO 01. 
Elz,]?- S nag +1< »)| $ C (I (Xi) 
ái 


21 
= Bavo (Xen) ) | | 


» 
KIMY AELIC &1« r) | vo, (Xis) |?) 


1 
CKO RAEL +1 r) + [X1 


f 
SKY AEI + SO + [X41 


i-o 


S Ku, + Hz) ria. 


并 且 KKCMMtpo, K 是 不 依赖 于 Q 
然后 引 埋 的 第 一 部 分 可 从 (Doob 不 等 式 ) 
Elsup| zn |*| & 4 supE | z, |* < KO + xl) S rds, 
导出 .第 二 部 分 被 证 明 是 因为 在 (r= oo) 有 
Ew] Iz. 7 zl, 
£z 
并 且 因 为 如 果 > ra < co WE z, tpa. .收敛 并 且 在 L? 中 收敛 .这 是 因为 
CE L? PHR. 
考虑 下 面 各 项 时 ,我 们 注意 到 对 i=2,3,4 有 
E suits < 0| Se^] ES petri] 
a—- ke à 


-E[M Ie? iG e 1« DJ. 
2 


aM i 


并 约定 P =e — 0. 
引 理 3.3.2 ”存在 一 个 常数 A 使 得 对 所 有 的 nt 有 
mAr- Él 
E,,(2 LPI < Aa e rl) (Dri), 
E E 
其 中 
sı = max(2q, + 24(g1 V q2),295 + 2(q1 V q2)). 
TH CA. 3) (A. 4) ICA. 5) ,并 记 CI(Q) + Cx(Q)yi 为 E(Q), 则 有 
A2 < Ain, (QIC (Q) MI QI C3 Q) + C(Q)MÉ(Q)CSCQ)], 


$33 Lil esp 


其 中 A» 是 不 依赖 于 Q 的 常数 . 
证 ”我们 使 用 (3.2.15) ,并 注意 到 在 |&+ 1 过 rl 上 有 
10, - al CC (QQ + CGGQD yi) + | X, | 9), 


E( M eL kk YR I +< e + [X [mv p? 
£z £1 
m 
+ KE] S aIle +1 L O0 [X [2109 9)p^, 
f 
其 中 


Kı < AC? (QMICQ)CICQ), 
Ka < AC’ (QIM QI CI Q) és, 
€(Q) = CI(Q) + C( Q5. 
A 只 依赖 于 di qo q3 和 ds ,使 用 Schwartz 不 等 式 ,并 且 因 为 1+X<2, 我 们 有 


LA) 


+ KO + | Xa [9092], 


使 用 (A.5) 最 终 可 以 证 明 引 理 . 
引 理 3.3.3 ”存在 一 个 正常 数 A;, 使 得 对 一 切 m 有 


E( S iei Y & AO larl), 
其 中 Pi 
As < A MIQ)CIQQD 4, (Q), 
As 是 一 个 不 依赖 于 Q 的 常数 . 
证 明 利用 (3.2.14) 我 们 可 以 得 到 


Mh 
E( 3 lel) 
E 
ge 
< KE 93 - 0 0IG *1«& 90 IX I9? 


EN 
OQ = TD 220A 7 DETI + 1 8) + | X, [2521, 


icd 


<KŠi 
其 中 

K < MCQ) CQ), 
因此 从 (A.5) 有 
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a 
E( 3 lef ka « lro), 
fi 


并 且 KÄ MIQ CCQ) i, (Q). 
31 3.3.4 id s; 7 sup(4q1,4q2) TEE — A ECC As 使 得 对 一 切 mw 有 


m" 
E( 2 lef? & AQ Dads) Say. 
£e 名 


其 中 
As < Asp, CQ)LCCQ)MECQ) + CHQ) + 对 ciCQ)]， 
Àa 是 不 依赖 于 Q 的 一 个 常数 . 
证 明 我 们 有 
[e | Kaa + | Xal). 
根据 (3.2.10) 和 (A.3),si=sup(2q1,292) 和 
K < C(Q)MiCQ) + MILCI(Q) + yc Q)Y. 
所 以 


ici 
EKE| Yat «1«& 00 | Xal") 


seg (Sn) nan sie x c») [xal]. 


应 用 假设 (A. 5) 便 可 证 明 atm a. 3.4. 
818 3.3.5. ”存在 一 个 常数 As 使 得 


E, d sup In < c) | mol?! & ASO + | æl?) 


IMi 


其 中 

As < AsMI(Q) CQ) 43, (Q), 
As 是 不 依赖 于 Q 的 常数 .进一步 7.oya.s. 收 敛 , 且 当 Drga < oo 时 ,在 | 
= cl 上 是 L? 收敛 . 

证 明 
|% (XOX)? < KA + 12125) j1 
E| ,Sup I (n < DIOS ra|? 
SKE | sup In & e) + |X, |r], 

其 中 


$3.3 L? fiit DE- a 


MQ) GIG), (Q). 
K 是 不 依赖 于 Q 的 常数 . 据 此 
El sup In 二 as KE| yat «1 0 + |X] 


< yd, Lei) a. 
这 就 证 明了 引 理 的 第 一 部 分 .最 后 ,因为 
E | hes | Yo, (Xn) | KZA + lr l) Kil. 
E |I eX |% (Xa) Ya |?| « o. 

这 隐 含 着 lim qi (Xa) Yn =0,a.s. 

$88 3.3.6 XE D 的 任何 紧 子 集 Q 和 Re 上 任何 具有 有 界 二 阶 导 数 的 
C? 函数 $, 存 在 常数 B1,B 和 s 使 得 对 一 切 m 

1. 我 们 有 


Sac! IE 


ži 
EB, + æl) (1+ Sa Sia (3.3.1) 
其 中 A€ [12,1] 是 假设 (A.5) 的 常数 ;类 似 地 假设 (A.3),(A.4) 和 (A. 5) 中 
的 常数 使 得 
By B (1 j3XQDUMICQ) + CCQ) + CCQ) + CHQ) 
+ C^(Q)Ci(Q)], 


其 中 
CCQ) = CCQ) + yiCzx(Q)， 
B, 不 依赖 于 Q. 
最 后 我 们 可 以 取 
s = max(2q, + 2Amax(q1,q2) 205 + 2max(qi,q2) ,4q1,4q2). 
2.88 Pria 之 1, 则 
G) Eza |supl(n < r(Q))| Sl l'&Ba« sns. 


Ei 
(3.3.2) 
其 中 ,对 某 个 不 依赖 于 Q IERCRCC B, CB,. 


Gi) 在 fr(Q)= 0] EC Delh) a. s. 和 工 收敛. 
T 
证 明 引 理 3.3.1~3.3.5 告诉 我 们 (3.3.1) 的 第 一 项 是 有 界 的 ,以 本 身 


“54. 第 三 章 ”具有 局 部 有 界 拓 随机 表 近 算法 的 儿 乎 必然 收 伐 性 


都 是 上 有 界 的 机 项 之 和 为 上 界 , 上 办 由 下 而 形式 给 出 
BO lel »» ida R Büedzb) (Say, 
命题 的 第 一 条 为 真 .又 因为 
(Sa « (SADE), 


利用 这 些 上 界 命题 的 第 - -条 也 容易 得 到 . 因此 ， 我 们 有 
推论 3.3.7 对 所 有 的 >0 有 


Bil ,3up, 0 < za» Š L6 0) | 


2 


P 
<B + zl + TyP0N HR (3.3.3) 
[mr 
3E 3.3.8  Robbins-Monro 算法 的 情形 
对 这 个 算法 扰动 6, , 1($) 的 分 解 能 被 大 大 地 简化 ,因为 
EA($) = Y,a9 (OD LHGO& XU) — h(9)] + e$? (9). 
并 且 过 程 
zi 


Z, = Mraf GDLHGOS Xeni) = h(0.)] 


Ir 


J&— We. WEES 3.3. 1 中 一 样 ,利用 Doob 不 等 式 可 以 说 明 它 是 上 有 界 
的 .在 这 种 情形 不 必 使 用 假设 (A.4) ,因为 这 时 假设 (A.4) 几 乎 都 是 平凡 的 ( 参 
见 3.1.4). 


83.4 通过 常 微分 方程 的 解 作 算法 的 通 近 


对 于 :>to,b(t,to,ao) 表 示 下 面 方程 的 解 
dac) = h(0(0)), EZ to, 


lto) = ap. (3.4.1) 
我 们 选择 了 >0 和 D 的 两 个 紧 子 集 Qi, Q 使 得 QICQ,， ,满足 
Va€Q, Vt T,d(0(50,4),Q5)) 289 50. (3.4.2) 
这 一 条 件 只 应 用 于 微分 方程 (3.4.1) 的 解 . 它 隐 含 着 在 T 达 + 二 0, 环 绕 解 5(1; 
0,a) 的 任何 一 个 半径 为 6< 0, 的 管子 包含 在 Q, F. 
根据 (A.4) ,存在 常数 Li= Li CQ), L2 7 Lz(Q2) 使 得 
IACD E Li, lh) -ACIS L18- 601, V8,8 € Q, 
(3.4.3) 


$3.4 通过 常 微分 方程 的 解 作 算法 的 逼近 :55 


Xi. 1.4) 5E UII 2, t, ST H 
80,0 = 867 [hn GCG»as 


= yah(,)) + ans 
其 中 
la, | Lz (3.4.4) 
我 们 希望 在 [0,T] 上 比较 6(z) 和 6(z;0,a ) SX EFE a Hb DOSE h 
(3.1.7) 给 定 的 nn CT), ER 0, 和 6(z,;0,a). 
我 们 固定 一 个 ,bo= a 并 记 8(t;0,a ) 为 6(z). 对 00, 考虑 集合 
1 sup. |On - 8(4,)|2 81. 
如 果 我 们 对 r( Q) 的 定义 (参见 (3.2.11)), 令 
v= m(T) A r(Q,), (3.4.5) 
该 集合 等 于 
I(sup| &, - 0(1,)|;n x y) 2 8!, 
因为 在 时 间 n= r(Q:) ,从 (3.4.2) ,我 们 有 | 0n 7 066) | 9. RA i—i 
En = Oksi 7 0, 7 Y, h (9), (3.4.6) 
应 用 (3.3.3) 到 坐标 函数 点 (9) = 0 ,我 们 有 


D 
Esa | sup, 1G & a| alp P SBA + Jla + Ty? 9$ rå 
K 


(3.4.7) 
对 某 常数 B 和 s 成 立 . 因 为 
0, = 0(6) = 6,4 706,4) + Y, (h (0,1) - h((4))) + 6-1 + G4. 


8 - 8) = S natu) - b) + Sas Sa. 
|, - OC VIS Lai eil al+ [Sal *n$ Ya. 
在 ln<yv| 上 ,对 =0.…, 我们 有 
10, = Ct) |< La > nal& - 8| 


< 5X nalé - O)| Ui + Us. 
引 理 3.4.1 ”如 果 对 ~=0,1,…,m， 
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»< nE yw 1+ 7Y2,v0 = 0, 
Jobs ENG 
v,  Yaexp| A ; 
WEBB ”我们 可 以 假定 yi =1. 令 人 PURGE 


1+ Xxool ixl eol Xx. 


En 
» PST (3.4.8) 
ET 


JU P(1) 简 化 为 1+ yíexpy, 和 v1 二 72, 这 显然 为 真 . 
让 我 们 假定 POLARS RESO TRUAY 


ool S; ind reel Y Jri dexol yal 
2ep| Y HAE Yael Xy 


: E : 
Yael f yit yexp| Mz 
í : 
S 
之 


另 一 方面 
wa Split Sondeo Hyl< rel Syl. 
在 ln<vl 上 应 用 引 理 3.4.1, 我 们 有 
16, = 6.) |< exp} L5 9 | (U1 + U2); 
sup p| bu -8(,)]? &epl2L, TI QUI + 2U3); 
Elsup n 7 852]?! < expl2L; TI GE(UT) + 2E( U3)). 


因为 
ACD XD m) 
UicLib)nbinu«liTMrn. 


并 使 用 (3.4.7) ,我 们 有 
Elsup| 0 = ÖC) |2} 


mT) 
KB + 1zl)0 + TDA  LexpQL;T) 9 r4. (3.4.9) 


$3.5 算法 的 渐 近 分 析 .37- 


定理 3.4.2. [BGECAL 1) - (A. S) WEE EB. y, 1. QICQ: E D ff 
两 个 紧 子 集 . 则 存在 常数 B3, Loss 使 得 对 所 有 满足 (3.4.2) 的 T>0, Y< 
60, VaEQ, Yr RIH 
Paal sup, 16, - 6(1,50,2)| > 81 


7 
«Ba + | xl0 + T)expl2L; T) X r}. 


特别 地 ,如 果 y, — ya OSEBPR k IRIZ, UU 
P, a| sup |0, - 6(ny:0,4)| 2 81 
esL T/y 


«a + [zT + T)expl2L; T) y, 


其 中 La ARS h EQ 上 的 Lipschitz 常数 . 

假设 yI 被 引入 定理 中 是 为 了 简化 常数 表达 式 .这 是 不 重要 的 ,因为 这 
通过 调整 H 和 p, 总 可 以 得 到 . 

如 果 忆 ,,,,。 表 示 (X, 4,0,+4) 带 X, 7,6, =a 的 分 布 , 则 像 我 们 已 经 看 
到 的 一 样 Pr eu EFP, a JER P, EHE C. 11) EB CX L0, 004) 46 TE 
(3.1.1) 中 y, p, IIBE Yes no pe, 替代 .因此 ,利用 与 定理 3.4.2 同样 的 假 
设 , 根 据 (A.3-ii) 关 于 一 致 性 地 成 立 ,对 所 有 的 我们 有 

Pysal, up 16. - 0st, ,a)|z 81 
B3 


EO leU + T)expl2LaT) Nri. 


这 个 不 等 式 表明 如 果 级 数 Lco MENA UNE. 4. RE 
的 增加 的 趋势 .这 隐 含 着 如 果 微分 方程 (3.4.1) 有 一 个 吸引 子 0. ,算法 的 轨 
迹 趋向 收敛 到 这 个 吸引 子 .现在 我 们 更 精确 地 ,系统 地 陈述 这 点 . 
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假定 存在 D 中 的 一 点 0. , 它 是 微分 方程 (3.4.1) 的 一 个 渐 近 稳定 点 ; 具 
有 吸收 域 D; 这 意外 着 对 于 a € DD, 方程 (3.4.1) 的 任何 -个 解 无 限期 地 保留 
ÉE D PHH oont KAE 6.. 则 可 以 证 明 存在 一 个 D ERU C? 函数 U 
使 得 

(i) U(6.) 20; U(0) 20, V 0€ D,067- 8s. 

Gi) U'(0)4(0)0, V0€ D,070. . 

Gii) 如果 8D 或 19|-~c, 则 U(0)--co. 

后 面 我 们 将 在 稍微 更 一 般 的 假设 下 研究 这 种 情况 , 即 在 吸引 子 可 能 是 D 


f58- LE z* PA RBH FERUDUN RALIS UT DUSCHE 


的 一 TT 因此 我 们 引进 下 面 的 假设 

(A.6) 9] r1? < oo, 其 中 AE [172,1]. 

(A.7) 存在 一 个 D EC? 类 正 函数 U 使 得 U(9) 一 C<%, 如 果 0— D R 
191 一 co ,并 且 当 0E D Bt, U(0)< C, 还 满足 


U'(6)h(0)-0, V6€D. (3.5.1) 

我 们 引进 一 些 记号 
K(c) = 165U(0) < cH; (3.5.2) 
r(c) = infi nió, € K(c)l; (3.5.3) 


v(c) = infin;6, € K(c)l. 
命题 3.5.1 假定 ci < cz<C. 存 在 常数 B; 和 :* 使 得 对 所 有 的 acE 
K(ci), 所 有 的 zxERe, 有 
Pslr(e) < ol < Bl+ Eel) a, (3.5.4) 


m 
证 明 $E R^ ERU C? 函数 ,与 函数 U 在 K(cz) 上 一 致 ,并 且 满 
E 
inf{$(0);0 € KCc;)! = c; 
因为 由 (3.2.5) ,我 们 有 
$(0,4) = (4) = Verh COA (9) + e 9). 
故 对 所 有 的 n 有 


$(6,) - $(00) = 2inaf ORC) + Dy er($). 
这 样 在 |r(cs)< o] EA 


[S] $a 
Hey E 


Elle) - $(00) = 3] naf (Ohl) + 21400 
但 是 一 方面 ,如 果 a € K Ci) , 则 
ECO) = $6) Ze - à. 
另 一 方面 ,对 于 k<r(cz) 有 
E (0)h(0) = UCh) «0. 


D 


-1 
y 


ez 
lez = ci)Ilele2) < 99) <I) < 9)| 9] » 3M «ao» 


Sac]. 


<supl(n < GI 


$ 


PG) < 9) < (ez - e) E |sup (n < «e» acr l. 
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下 利用 命题 3.3.6,(3.3.2) 得 到 命题 3.5.1 的 证 明 . 
现在 我 们 考虑 D 的 一 个 紧 子 集 F 玉 满足 
F = {0;U(0) < co! D10;U’'(0)h(0) = 01, (3.5.5) 
如 果 6, 有 了 吸引 域 D, 取 下 =19.1,co=0 时 ,这 一 条 件 被 满足 . 

命题 3.5.2 假定 c< cb<C. 对 所 有 的 a€ K(c), 所 有 的 x+,10,| 在 
(r(cz)< ce) 上 按 概率 已 。 a.s KIG F. 

为 了 证 明 命题 3.5.2, 我 们 从 一 个 引 理 开始 . 

引 理 3.5.3 ”假定 c< ci<cz<C. 对 所 有 的 cEK(cz), 所 有 的 zx, 在 
(1(e3) 8 99) E, v Cei) € ceo, 按 概率 P, uas s RE. 

证 明 从 (3.5.1), 我 人 有 一 U (6)h(9,) >a 20, BUB e 
UC0) S cif) 0 JR sr. . A E e PERO d 3.5. 118] FE DO eR CRIT 0, HUI 
(ci) 2 »(e3) 2 99) E RIA 

"m E 


HOn) = $0)= B na (GR) + M (OD, 


mii T-1 


M yg (Oh(0) 
pet 


m 
Za 2 na2a(T-1). 
另 一 方面 
Plne) - (6) >- (3 7 6), 
因此 


mapi 
之 eal$)>alT-1)- (c-c) 21 
对 充分 大 的 成立 .这 与 命题 3.3.6 的 第 二 点 矛盾 .证 毕 . 
命题 3.5.2 的 证 明 :为 了 证 明 这 一 命题 ,我 们 将 证 明 对 所 有 的 
c>co， limsupU(6,) <c. 
假定 co 入 ci<c<ca<C, 并 考虑 
r(cz) = co, lim supU(8,) > c. 
我 们 定义 
v, = infi n;0, € K(ci)l, 
tı = infln > 9:6, d K(c)!, 
» = infin > 74:0, € K(cj)l, 
T, = infln > 4:0, € KC). 
所 有 这 些 值 是 有 限 的 ,并 明显 地 有 内 之 &. 故 对 同一 函数 $ 我 们 有 


(i 
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ESI nu 


$0.) - $607 Mna Oh) + Ma) 


< Xt, 
但 
$(6,) -$0 ) >c- c >O, 
再 次 与 命题 1.3.6 的 第 二 点 矛盾 .证 毕 . 
定理 3.5.4 ”我 们 假定 (A.1) — CA. 7)JR SE, F 是 一 个 满足 (3.5.5) 的 紧 
集 . 则 对 任何 紧 集 QCD, 存 在 常数 Ba 和 s 使 得 对 所 有 的 4 宇 0, 所 有 的 a € 
Q, 所 有 的 z+, 有 


P, us 收 合 到 F) 宇 1 -= B + Del) M rp. 


证 明 存在 cs 使 得 QCK(c,), 根 据 命题 3.6.2, 在 (t(cs)=o%) 上 ,0 
a. s. KIE 天. 通过 将 命题 3.5.1 应 用 到 下 面 算法 中 
Bean = Onik + Yea HÉO a Xo) + paa Asa Xa) EO 
并 考虑 到 引 理 3.4.1 和 命题 3.5.1 的 常数 对 所 有 序列 (x, e 8270) EAR 
(53,8 3.3 节 开始 的 说 明 ) .我 们 得 到 P(r(cz) = co ) 的 下 界 .证 毕 . 


$3.6 收敛 定理 的 另 一 种 叙述 


定理 3.5.4 可 以 用 不 同 的 形式 提出 . 

定理 3.6.1 ”假定 对 R4 的 一 开 子 集 DD,(A.1) 一 (A.5) 成 立 . 令 0, 是 微 
分 方程 (3.4.1) 的 一 个 渐进 稳定 点 .假定 S 是 D 的 一 个 紧 子 集 , Q 是 9, 的 吸 
收 域 的 一 个 紧 子 集 . 令 

Q(S,Q) = 16, € S, Vn,0, € Q, 对 无 穷 多 个 n|. 

则 对 所 有 的 z,a ,在 2(S,Q) 上 ,4, ERP, ara. s KAE 0.. 

推论 3.6.2 ”假定 D= Re ,如 果 

1.(9,) 是 a.*. 有 界 的 . 

2.9,,a.s. 无 限 多 次 地 访问 6.。 的 吸引 域 的 一 个 紧 子 集 . 
则 ba.s. 收 敛 到 6。. 

证 明 通过 使 用 Kushner-Clark 引 理 ,定理 3.6. 1 可 以 从 命题 3.3.6 导 
出 .然而 , 它 亦 可 从 定理 3.5.4 得 到 . 令 A 是 一 个 包含 Q 的 开 集 ,U 是 一 个 关 
FO. HY Lyapunov 函数 . 则 在 A E, U 满足 (A.6) 和 (A.7) ,并 且 如 果 我 们 今 
F=19.1, 则 下 满足 (3.5.5), 带 有 co=0. 又 记 K(c)=1U<c| ,我 们 注意 到 
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在 (r(S)=co) 上 ， 

lim supl8, € K(ci)! C lim inf{ 0, € K(c3)), c< c< C. 
因为 如 果 不 成 立 , 用 % 表 示 避 的 一 个 适当 的 延 拓 ,用 ww ,mm 分 别 表示 对 
K(c1) 和 K(c2)“ 连接 的 访问 ,我们 有 

€2 — ev < 9(0,) - $(6,) 0. 
选择 c, 和 c 使 得 QC KD ,我 们 有 
P(Q(S,Q) 人 (4% 一 9.)5) 
=P((r(S) = 9) N lin supl&, € QI N (8,7 0.)*) 
SP((r(S) = 99) f lin infl&, € KG)! (9 0.) 
<lininfP((r(S) = 9) N 10, € KC) N (4 0.)) 


Slin infE(I(r(S) > n,0, € K(3)P, x i (0 > 0.)°) 


«B, lin infE(I(£(S) > n) | X,|)) 31^ 
; é 


SBap, 0 + |x|") lin inf $171? = 0. 
id kan 


$3.7 一 个 全 局 收敛 性 定理 . 


我 们 假定 条 件 (A.3) 和 (A.4) 的 常数 C;( Q) 最 快 以 Q 的 直径 线性 增长 ; 
如 果 X=1 常数 Ca 不 依赖 于 Q; 如 果 4<1, 其 阶 为 (diam( Q))1-*. 类 似 地 ,在 
(A.5) 中 ,我 们 假定 常数 jx, 不 依赖 于 Q. 因 此 ,我 们 假定 存在 常数 C, qi= 
1,…,4 和 n (4 >>0), 使 得 对 所 有 的 OER ,aE R4,n 宇 0,R>0 有 


IHCO, x) C JODA + xl). (3.7.1) 
le CO) | C1 + 10D + Ede) (3.7.2) 
EQ + [Xna S n zl); (3.7.3) 
|l) [<A + 10DA + Eel). (3.7.4) 


并 且 对 所 有 满足 19| LRL L9 | CR 896,0 VLA A€ [172,2] 6 
| zovo(x) - eve Cx) | C40 + R?)18- 9 ^ ELON 


(3.7.5) 
其 中 v 满足 (A.4 一 ii). 我 们 进一步 假定 


3" < oo- (3.7.6) 
F 
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定理 3.7.1 ”假定 条 件 (A.1),(A.2) 和 (3.7.1)~(3.7.4) 成 立 , 则 有 下 
列 性 质 

a. 如 果 存 在 一 个 R^ EC? 类 正 函数 U 具有 有 界 二 阶 导数 使 得 ,对 所 有 的 
9,19| 达 po(i) 有 

G) U’(9)h(0)<0. 

Gi) U(8)2a|8l?,a0. 
则 对 所 有 的 x € R* a € R^ ,序列 (b,) 是 P, a. s AR. 

b. 进一步 如 果 存 在 0. € R^ 使 得 

GY U'C0)h CO) CO, XEWETTRO 0770 .成立 . 

Gi) U(0) -0, 4 R DC 6— 0. . 
则 序列 (9, ) 是 P, sa. s KAE 0. 

注 如 果 V(0) 是 一 个 R4 上 正 的 正则 函数 , 它 随 着 | 6| 趋 于 无 穷 大 ,并 
M C) s C Rt Cii) , 则 对 任何 正则 函数 

人:R 一 人 R，4%(0) = 0,y(1) 50, limg(t) = 0, 

U=y。V 也 满足 (i) 或 (i)' 和 (i) ,并 随 着 | 9| 趋 于 无 穷 大 . 取 一 函数 y, 它 的 导 
数 在 无 穷 远 处 充分 快 地 趋 于 零 , 我 们 的 目的 是 得 到 一 个 具有 有 界 二 阶 导 数 的 
函数 U, 另 一 方面 ,为 了 得 到 (ii) ,我 们 必须 从 这 样 一 个 函数 U 开始 , 它 在 集 
119| 2 RI 上 是 均匀 增加 的 . 

定理 3.7.1 的 证 明 因为 U 的 二 阶 导数 是 有 界 的 ,我 们 有 

LUOKKA 180), [UOI Kia 10]. (3.7.7) 

我 们 可 以 假定 a<1, 设 


A= (1+RK,)(1+ ø); (3.7.8) 
2, = inf{k: U(6,) > A2"|; (3.7.9) 
c, = 1+ suplk < or,:U(0) < A2]. (3.7.10) 


注意 到 如 果 EC Lenons] RITA 0, Kt, Kon s1, UCO, KAZ" RA 
po: 

我 们 将 构造 一 列 集合 B, ,使 得 limP,.。( B,) = 1 ,并 且 对 所 有 的 "之 2, 在 
B,N lons < ott, A 


U(& )- U(8,) > A2"/4. (3.7.11) 
lim2 "EIQU(A, .) - UCO, DICB, N los. < 9D] = 0. 
(3.7.12) 


从 (3.7.11) 和 (3.7.12) 立 得 
ZEUG, .) - UCO: DICB, N loni < 9911 
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A? 
>16 P (Ba N ion < HH, 


每 当 limP(o+i< 0) =0 时 成 立 . 因 此 有 P, sup! 8, | <00) =1. 
我 们 将 通过 一 系列 引 理 来 构造 B。 和 建立 (3.7.11) 和 (3.7.12). 首 先 注 


意 到 对 所 有 的 9 三 0, 我 们 有 
下 | ENPA + [x, po?) |a nO zl) Soy]? < oo, 
lim; | Xi $20, PL, 4.5. (3.7.13) 
$2 3.7.2 $ 


C, = IVR > n, Uea) - UC) < 3(U(&) + A)I, 

JU P(C,) 趋 于 1. 

证 明 一 方面 我 人 有 
U(&4) - UCO) < IU GL | Besi = A| + d supl UCO) | a = Alè, 
另 一 方面 ,由 假设 知 

lai- Bl 
xac 1610 | Xal + xia [60s |X), 

|U'(CG) | € Ri € 18.0), 

|U'(4)|  M;. 
因此 

Uls) - U(6) € A + &1)2z,, 

根据 (3.7.13) ,其 中 Z,a. s. ir 0. 

但 如 果 | 8 |po, 则 有 1+ | 0. | 21 ps 

An | 6, | 0o WA 1+ | |? a7 UC). 
在 所 有 的 情形 有 1+ |0|? <a UCO) + A), BEDA 

Uls) - U(&) < a^ Z(U(&) + A). 
5/38 3.7.3 limP(n€s,) - 1. 
证 明 482138 3.7.2 只 须 说 明 对 每 个 +, 有 
limP[C, N (n > o,)] = 0. 

ARV(O)-U(O) * A, BEC, E, XT Rr RIT VOLU E 


F VU, K (LS GA VC) ,进而 在 C, 上 ,有 
U(&) < A + (3/2)*'(U(6,) + A). (3.7.14) 


164 Bo RARUS ROBERUDIETEUSMUL TZ OPE 


因为 


le, inl 21 sup U(&) > A2"} UU£-1IUCA) > A2". 
显然 当 n 趋 于 无 穷 时 , PIU(8.) 宇 A2"| 趋 于 零 . 因 此 为 了 证 明 引 理 ,只 须 注意 


PIC, nl sup U(&) > A2" 1]  PLU(&) + A] > A2(822)"] 0 


我 们 记 
B, = C, N (n < on). (3.7.15) 
引 理 3.7.4 f£ B, (o, Xo) E. 
U(&, ) - U(6,) ZA2A, n2. 
证 明 在 (o,;1<%) 上 , U(0, . )2A2"' ,进而 在 B, E, no, xr, 
B c, -1 三 n, 据 此 有 


U(&) € 3U(,) + 4 « 3A» + AA, 
U(0;,, - U(&,)) AD - 


引 理 3.7.5 ”我 们 有 


njw Ed 


2" - 4] > A2 4,n 之 2. 


E||UC&, = UOD IB, N Coni < 9| < ra, 
其 中 a, 是 一 趋 于 零 的 实 变量 序列 . 
证 明 dE B, Co, cL oo) Ef 
U(&, ) - U(&.)- S naU' (Dh + Sa) 
ri Ti k ts 
« Sa). 
因为 当 &E Ur, co, INS | O | po UR A 的 选择 ,有 
ICB, N Consi < 9) UCU, ) - UCO) 


vun 
ed 


IG, N Consi < 0). ab lÈ ew] 


218, N Consi < ©)) sup [Seol 


x2I(n < o, ) supI(k < 


5,4)] 22«(0)]. 
然而 ,根据 命题 3.3.6 在 (n<o,) 上 ， 


E [sup (k < e.) | Eje CU [A] 
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EKBQOsIX[ os. 


其 中 
Q, = 165U(0) < A2" |. (3.7.16) 


所 以 


EMG, N Consi < 9) | UG, - 
xKsBI(QQ,O + la|‘ )a,. 
剩 下 的 是 估计 Bi(Q,). 对 6€ Q, ,我 们 有 
6j xa 'U(0) Aca AQ" +1). 
这 样 常数 CC(Q,)G = 1,2,3) 和 命题 3.3.6 的 MI(Q,) ,如 同 常数 2"2 一 样 地 
增加 ,并 且 C4(Q,) ,如 同 常数 2"04- 72-- 样 地 增加 ,所 以 BaQ, ) SR 62" ,这 
蕴涵 着 引 理 3.7.5. 
定理 3.7.1 的 证 明 ( 继 续 ). 从 定理 3.7.4 可 以 得 到 定理 3.7.1 的 第 二 部 
分 . 
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本 节 我 们 讨论 对 一 个 合适 的 常数 * 和 指数 B, 得 到 形 为 下 (|b,-6.|12) 
SAY; 的 上 办 问题, 这 样 一 个 上 界 在 RM 算法 中 容易 得 到 .对 更 一 般 的 算法 ， 
得 到 这 种 类 型 的 上 界 很 困难 .的 确 , 为 获得 带 有 实际 假设 的 一 般 性 定理 出 现 了 
困难 .在 模拟 均衡 器 情形 中 ,Eweda 和 Macchi 1983 年 给 出 了 一 个 这 种 类 型 的 
上 界 .对 于 一 般 的 算法 ,我 们 将 简单 地 证 明 具有 一 “局 部 L? 上 界 "的 定理 , 即 具 
有 形 为 

E(|0, - 6. | In < «(Q) € xy, 
的 上 界 .其 中 ,照例 r(Q) 是 0, 离开 紧 集 Q 的 时 间 . 


3.8.1 Robbins-Monro 算法 


我 们 将 考虑 在 例 3.1.4( 也 可 参见 3.1.4 节 ) 给 出 的 Robbins-Monro( RM) 
算法 .算法 由 下 式 给 出 


951 = On + Y AH(Ó Xs), (3.8.1) 

其 中 
E[H(0,,X,11) - h(0,)|7,] = 0, (3.8.2) 
4(0) = [nc ous. (3.8.3) 


注意 到 E,,, 不 依赖 于 xz; 我 们 把 它 记 为 E,. 一 个 常用 的 假设 为 :对 所 有 的 a € 
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R*, l 
E,[[ HOn, XD PIRIS CA + [6,12), (3.8.4) 
对 某 一 合适 的 C 成 立 .我 们 假定 存在 一 个 常数 6>0, 使 得 对 所 有 的 9 
(8, - 0.)h(0) <- 6|0,— 0. |?. (3.8.5) 
并 且 对 某 个 B<1 有 
lim inf 26 5 + a X sg. (3.8.6) 
a n+ n+l 
关于 (3.8.6) 的 说 明 :如 果 
-_4 - 
Uh 


则 条 件 (3.8.6) 对 所 有 的 8<1 为 真 .如 果 26>a/A, 则 对 B=1,(3.8.6) 亦 为 
真 . 
定理 3.8.1 在 假设 (3.8.2) 一 (3.8.1) 之 下 ,算法 (3.8.1) 有 下 面 的 性 
E,(|0, - 0.1?)  A(a)X5. 
对 某 一 合适 的 常数 Ca ) 成 立 ， 
证 明 ”只 须 说 明 对 某 一 适当 的 no TEHE Ala, no) ,使 得 对 所 有 的 n9 ng 
有 
E,CI8, - 9。|2) Alanno). (3.8.7) 
^ T,-0,-0.Jfi 
E Tal? A) 
= | Tp |? 20,4 TO) + 2Yns1 TLELHO, X4) - h(0,)|F,) 
+ YSa EC HO, X.) |A). 
假定 ”充分 大 使 得 1 三 27,+16. 从 (3.8.2) 和 (3.8.3), 并 取 期 望 
ECT,4|) < 072748 + C Y0E| Ta |? + Ci (3.8.8) 
其 中 C, 是 一 个 常数 使 得 
Cia «€ 1612) & Cu + l0- 0.|?). 
我 们 将 使 用 下 面 的 引 理 . 
引 理 3.8.2 ”存在 ào 和 no 使 得 对 所 有 的 > Mo 和 no IERI u, = 
ayi 满足 
usa > (1 725,40 + Ciy2a)u, + Ci YZ- 
证 明 事实 上 ,条 件 
AXXa > A -2r,48 + CX 0A + CA, (3.8.9) 
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可 以 重 写 为 E g 
Aaa H + Yna lo- Y4€0) 2 Ci Ya 
Ao 和 no 的 存在 使 得 直接 从 (3.8.6) 得 到 对 所 有 的 > Ao 和 n>n, (3.8.9) 
为 真 . 
定理 3.8.1 的 证 明 ( 续 ) 假定 Ao 和 no 按 引 理 3.8.2 定义 .选择 A(no， 
a) 使 得 


E| Tu|? AG. 2X. 
通过 对 n 归纳 立即 得 到 序列 =À Crosa) n2 no MUR E | T, |n, 
3.8.2 ”一 般 算 法 的 局 部 L? ER 
我 们 再 回来 讨论 下 面 算法 
0, = On + Yn HOn, XS) + yoripnr1( Os, Xni). (3.8.10) 
它 满足 本 章 的 一 般 假设 (A.1) 一 (A.5) 和 下 面 补 加 条 件 :存在 6>0 A o. 
对 所 有 的 oc 
(8, - 0.)h(0) <- 610, - 0. |?, (3.8.11) 


lim inf 28 3. na Ex. (3.8.12) 


m 
定理 3.8.3 MINE AR UP AE 
之 下 ,算法 (3.8.10) 有 下 面 性 质 :对 任何 一 个 紧 集 QCR EB 2€ R^, 
a€ Q ,存在 常数 1(z,a,Q) 使 得 
E..s(|0, = 0. |*I(n S «(QD) Alza, Q) Yn, 
其 中 
r(Q) = infi n:6, É QI. 
WEB] 记 也 =b-6,., 利 用 分 解 
H(0,x) = h(0) + w(z) -Zoo(z)， 
我 们 得 到 
| [T 20a TA(OD 2,4 T [9,9 = Tas (Xas) ] 
+ 24a Tanri (Ons Xn+1) 
+ Yal HO,IX a) + YnstPari COn Xati) |2. (3.8.13) 
然后 如 同 3.3.2 节 一 样 地 分 解 : 
vo, Ga) = Toys OG) 


= vo, Ga) = Hoyo OG) + Hl ve ooi ve Xa) 
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+ Hy (XC) = Hw (C). 


注意 到 
E|T,[», OX = 1,» (X,)]] = 0, (3.8.14) 
T, [Ho, v, OX) = How O64] 
= 2n = Zn (Tp = Tasi) vo (X44), 
其 中 
3n = TI, vy (X), (3.8.15) 
并 且 
jen = T, II, vo OX,4)] 
Sy | HOS X) w (Xari) | 
+ Fara |Para COn X0] | How Xas) | 
THE (3.8.13) (3.8.14) CA. 3) FICA. 4) ,推出 


E40 Tu al In 1 (QD) 
& 727,48 + CCQ, r) Ys 0E OT, 10i < (QD) 
+ YLaC( Qua) * 2v, Elz, — 2,4). (3.8.16) 
适当 的 常数 CI(Q,z) 和 Ca(Q,z) 成 立 .注意 到 由 于 (A.4), 有 
E(|z|) 和 Ca(a,z,Q). (3.8.17) 
引 理 3.8.4 ”假定 wo 使 得 对 所 有 的 n>no,1 -27,18 + 72，Ci(a， 
z,Q)>0 RY., H 


M 


inf. T2: — s 
n>m Yuri Yn 


对 nno t LAIBA REIA -non 


+28 - y, 4C, > 0. 


za 
. b 0-254094 Yl), k2a-1, 
A= P 
25, k=n. 
则 序列 (4A8) =w，…,* 是 增加 的 . 
证 明 MRH, 
Aja 一 人 
=( T] 072548 + in60)204 7 25548 -yoiG 


pan 


AE k+l=n, 


$3.8 一 些 算法 的 L? 收 仇 速度 的 


Aj - Aja = 20r, 7 Tua + 2YnYn s 7 Ya. 
这 样 ,如 果 n n 对 所 有 的 noSk € n ,我 们 有 Az. ,—- A£Z0. 
引 理 3.8.5 ” 令 (zw),>m 是 一 个 实数 序列 使 得 对 所 有 的 n>n H 
usa Z uv 72,48 + X340) + Y14Co. (3.8.18) 
ECT, 10no  £(Q)) € un, (3.8.19) 
则 对 所 有 的 n 宇 no+1 有 
EC T, 1o S QU) S un + M Aj — zn). (3.8.20) 


raii 
WEBB 如 果 (3.8.20) 对 ”是 真 的 , 则 根据 (3.8.16) 和 (3.8.18) 有 
ECG Tal GO +1 < «(Q)) 


Su, + (1 727,40 + yuC )( ) AlGia 7 2)) 


D 
mt 


F2y, 4 Eln — zn+1) 


Suna + ( $3 AT Gua 7 aD) ACen 7 m 


n m 


Ku, +( » E zri- 24)). 


XH 38.3 m "T 显然 只 须 说 明 ,对 某 个 适当 的 N, 存 在 A(a， 
ZN,Q), 使 得 对 所 有 的 n>N, H 
Er a(l- 0. | ICa & (QD) € AGx a, N,Q)»,. 
我 们 取 NZe no, JEF no 按 引 理 3.8.4 定义 .固定 N ,选择 4 使 得 
E(| Tr|?) < ày, 
对 n>N, RIE 
É " 

MEC -2)- PEL - Az - 21,45, + AlazN- 
H1(3.8.20) 8I(3.8. 17) ,对 任意 满足 (3.8.18) 和 (3.8.19) 的 序列 (xn ),。>=N, 我 
们 有 

ECT, l1 x cQ) < un * 3C(4,,Q)A1..— (3.8.21) 
如 同 在 引 理 3.8.2 中 一 样 ,我 们 看 到 序列 un = 47y, ,对 充分 大 的 n > N, 满 足 
性 质 (3.8.18). 从 (3.8.21) 和 Az = 2ay, , 即 可 得 到 定理 3.8.3. 
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本 章 的 目的 是 提供 一 个 准则 ,在 此 准则 之 下 ,给 出 第 三 章 的 假设 (A.4) 有 
效 的 范围 .正如 $3.1 及 关于 (A.4) 的 注 c 所 提 到 的 ,验证 假设 (A.4) 成 立时 ， 
要 求 转移 概率 为 Po 的 马尔 可 夫 链 是 遍历 的 ,并 且 函 数 PH 关于 6 是 正则 的 . 

在 $4.1 我 们 考虑 在 适合 我 们 的 算法 分 析 的 设置 下 马尔 可 夫 链 的 几何 遍 
Ji tE. $4.2 给 出 了 (A.4) 成 立 的 充分 条 件 . $54.3 研究 与 线性 动力 学 ( 例 
3.1.1) 关 联 的 转移 概率 Po. $4.4 提供 两 个 例子 ( 即 横断 均衡 器 和 最 小 二 乘 
算法 ) 的 更 精确 的 范围. 


$4.1. 马尔 可 夫 链 的 几何 遍历 性 


4.1.1 预备 引 理 


考虑 取 值 于 R* 的 马尔 可 夫 链 ,PP(，，…) 为 定义 在 R 上 的 转移 函数 .zy， 
… 等 表示 及 中 的 点 , 令 
ux) m persay) yt. (4.1.1) 


引 理 4.1.1 设 g 为 Re 上 函数 ,存在 常数 kK 宇 0,g 宇 0,pE (0,1), 使 得 
对 所 有 的 zy sn, 


| Pg(z) - Prg(y)|< K + Hl? + lylo), (4.1.2) 
HE jm(z) 对 所 有 z 是 有 限 的 . 则 存在 一 常数 ~, 使 得 对 所 有 = ,，， 
IPgG)- ri K TESO + dal). (4.1.3) 


而 且 如 果 对 所 有 x, 1+ |y|? + uly) E P(z,.) 可 积 的 ,那么 = X (Prg 
- r) ÆU- P)u = g -的 一 个 解 . " 
证 明 1Pig(z) - Ps(z)l= | 上 PCz,dy)[LPe(y) - Pg(z)] 
< Ke [PG dy) + lale + lylo) 


Kg" (1+ | x [9 nu). (4.1.4) 
于 是 YA>0， 


[P ele) - PriGO I K ÉL + lal + pz)), (4.1.5) 


$41. 马尔 可 夫 链 的 几何 遍历 性 ee 


这 意味 着 Pe(z) 收 全 到 某 个 ~, 但 是 (4.1.2) 意 指 不 论 y 为 何 值 , Prg(y) 收 
敛 到 相同 的 极限 ~. 在 (4.1.5) 中 令 k 趋 于 无 穷 , 即 串 得 到 (4.1.3). 
因此 级 数 2 (Prg(y) - r) 收敛 ,并 且 由 于 


M P'gGD - rl KO -pA + E yl? + p(y)) 
是 P(z,，) 可 积 的 ,由 Lebesgue 控制 收敛 定理 得 
Pu = >)P(Peg-r)= >(pg-r)=v-(g-r). 


E] E 


4.1.2 ”不 变 概率 与 Poisson 方程 的 解 


给 定 定义 在 Re 上 的 函数 g ,对 p20, 


Hl, = p LAG, (4.1.6) 


lz) -g 
ETGAN (4.1.7) 
Li(p) = |gi[g], € vot. 

易 知 如 果 [g]*< co ,就 有 | g lusu co ,于 是 我 们 引入 
N,G) = supl ll g ll pi Cg]; (4.1.8) 


Lels = sup 


现在 固定 p>0. 
命题 4.1.2” 设 存在 正常 数 K,d,w,p>1 使 得 对 于 所 有 的 gE Li(p), 
ry, 2€ R*, 
| P'gCy) - Prg(z)|< KN GO + yit + lelt), (4.1.9) 
pun) S aO + dbxl9), (4.1.10) 
那么 存在 仅 依赖 K ,wp 的 常数 M ,对 所 有 的 5E L; Cp) ,存在 数 Rg ,使 得 对 
所 有 的 x， 
(G) |P'g(z)- P, | SMN, GOL * xlt), 
Gi) u= 2 (P'g - Rg), 
n20 
满足 
(I - P)u = g - Rg, (4.1.11) 
而 且 如 果 对 任意 的 Re 上 有 紧 支 撑 的 C” 函数 f, Pf 连续 , 则 具有 转移 概率 函 
数 为 的 马 氏 链 有 惟一 的 不 变 概率 ,满足 
fizi mlaz) < o, 
并 且 对 所 有 g€ Lp), 


Rg = feam. 
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证 明 由 引 理 4.1.1 可 得 对 某 个 常数 Rg,(i) 和 (i) 成 立 . 记 (上 i). H RE 
上 的 有 紧 支 撑 的 Lipschitz 函数 空间 . HIC.) CL; Cp) EH. g Re 定义 了 
(1;)。 上 的 一 个 正 线性 型 .因此 在 Rt 上 存在 一 个 正 的 Radon 测度 m ,使 得 对 
所 有 KE CL). Re | gdm. 对 SEN” EXE CO. GER) toe 
s/28W $, (1)=1; 当 1 三 s 时 ,$$(1)=0;s/2<t<s 时 ,为 线性 的 . 设 
fi Go) C E DU 大 上 升 趋 于 1, EGRE 
Ifl) - fO sz 21x - yl /s. 
4 € Li Gp) Mi [Gf Gr) - Gef) 0) | .如 果 |z| 三 * 且 |y| 宇 ; , 则 它 为 
有 零 . 故 假定 |z| s DIEI 
[Gif Ge) - (gf)(y) 
Slgel) ll Go -AOD LO) g(r) - gy) 
EN GO e -yl Lael) LG) - QI 
x2N,G)lx - yl (1 læ’) * N,GOlax — yl + Ex]? + | yl^). 
因而 
N Gf.) < 3N,g). 
由 于 gf, € (Li) HB (4.1. 101-2) ,对 所 有 有 
P'Gf GO - [afdm | < 3MN GO + Ll 
因此 令 soo ,就 有 
[mao - [arm 


x 3Mpg'N, GO + | x)’), 
这 就 证 明了 对 gE Li Cp) [adm coo HIN Rg. UR MgC) = 


Heli f Ielrntm cas) o g= 1, 有 m(R)=1. 由 于 g€L,(p)， 

RERE ELC) g € Li(p), 所 以 可 以 直接 推广 到 gE L, (p). RAEE 

CAREW || g VC ~ 的 连续 函数 g 构 成 的 函数 空间 ,那么 对 gE€ C, 
limP"g(z) = feam. 

实际 上 ,车 记 各 (z) = Le P RAREN £ EIPS, aC) in S0) 4B. 

KAEI 9, idm :因此 正 线 性 型 序列 g 一 Pr(z,dy)g(y) EXE C, E, 

由 于 


feasayey)|< Lala e Pa lalis. 
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它 也 是 等 度 连续 的 . 因为 此 序列 在 稠 子 集 L;(p) 上 收敛 , 故 对 所 有 的 g E 
Cy EMG I g> [gdm Cpa 上 连续 ,可 知 其 极限 惟一 地 为 | edm 
假设 g€ Ce H.Pg 连续 ( 故 它 属于 Cpe), W 
Jgam = limP'g = limP"(Pg) - [pgam, 
这 就 证 明了 m 是 转移 函数 为 P 的 马 氏 链 的 不 变 概率 .这 个 不 变 概率 是 惟一 
的 ,实际 上 设 m 是 它 的 另 一 个 不 变 概率 ,那么 对 所 有 的 $ € L) Mn, 
[sam - IL ,于 是 
ID 5 lim P"$dm* =Í Rédm' = R$ = [gam. 


4.1.3 È LIDH Li(Pp) 的 连续 转移 函数 P 的 情形 

我 们 将 看 到 命题 4.1.2 很 适合 于 研究 一 定 的 随机 算法 ,然而 由 于 它 包含 
了 所 有 的 P" ,下 面 给 出 的 结果 将 更 令 人 满意 .我 们 仍然 讨论 取 值 于 R^ 的 马 氏 
链 , 整 数 p 仍然 是 固定 的 . 

命题 4.1.3 ” 设 存 在 常数 LEN* ,KER- ,PE (0,1) ,使 得 对 某 roE Rt 
和 所 有 的 gE€EL(p);x,yE RU 

(1) up aro) oo, 

Q2) | PgGz) - PG) | KEglol x — yl O1 nl? |y|?), 

(3) |Pg(z)- Pg) | oLgl,l x - yl (1 Ixl^*ly|^), (4.1.12) 
那么 转移 函数 为 P 的 马 氏 链 有 惟一 的 不 变 概 率 m, 且 | | x |^! mdr) «co, 
并 有 

G) 存在 M>0,a€ [0,1], 使 得 对 于 所 有 g€ Lp) z,n 

[Paco -fgam |< Met, Leto, 


Gi) M g € Lip), = D) (P'g - edm) $ 
3 
(I -P)u = g- fedm, 


TE L Gli [udm = 0 的 惟一 解 . 
证 明 HFRR 上 (z) = lel REL], co , 故 有 
| apa Gr) - ipao) | | Pb, Gc) - PP, Goo) | 
X K[$1,| x - xol (1 * |z]? | xo] ^), 
于 是 ns Gg) KMA + | z|?*!) 85b, (4.1. 12) 也 可 写 为 [Pg],<K[g],， 
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于 是 [Prg]。 志 K"[ gj] ,因此 存在 常数 C ,使 得 对 人 =1,2,…,! 一 1， 
[Pe]; x CL g],. (4.1.13) 
类 似 地 ,每 当 [ Ph], e Lg 1, Bf, (4. 1. 13) ROM Pg] Sole] si m 
= gl+k,k=0,1,…,l1 1, 就 有 
[Pg], = [PIP*g],  CUP*g], < Co'lg],, 
i$ C=C ,a=p!, 上 式 可 重新 写 为 
1Pe(z)- Pay) <S Caig], lz- yla + lael? + |y|?), 
(4.1.14) 
对 于 g= p+1, 命 题 4.1.2 的 条 件 (4.1.9),(4.1.10) 都 成 立 ; 又 由 (4.1.12)， 
如 果 $ 是 Cs 有 界 , 则 PP 满足 局 部 Lipschitz 条 件 , 因 而 连续 .命题 4.1.3 的 第 


一 部 分 被 证 明 . 又 = X (Pr - [edm ) 是 


(I-P)u-g - [gdm 
在 Li(p) 中 使 得 |udm = 0 的 一 个 解 (由 4.1.14) 可 得 .最 后 得 出 如 果 v € 
LG). = P)v = g - [gdm WARY w = u -v € LO)B- P)w 


7 0, 于 是 可 以 得 到 ww = pw = = p'w MAF [dm se = [edm JEE w 
是 一 个 常数 . 


$4.2 依赖 于 参数 9 的 马尔 可 夫 链 


考虑 R 上 的 转移 概率 族 ( Po,9E€ Q), Q 为 Re 的 子 集 .给 定 RIX RE 的 
函数 /(9,xx) ,我 们 来 研究 Poisson 方程 
C = Py)w = fo — Rafo 
的 解 vo 关于 9 的 正则 性 ,我 们 知道 f 表示 映射 +>f(9,z),x€ RE 
4.2.1 va XFO 的 Holder 正则 性 


KAR (9,z) 属 于 族 L;(Q,L1,L,p1,p2) ,如 果 
(1) 对 所 有 GEQ, N, Cf), 
(2) 对 所 有 0,0 € Q,zERt， 
10,2) -Abz)l 和 Lzlg-b1G+izloa) — (4.2.1) 
Li(QQ) 表 示 对 Li, p; BIS ÜURT LQ. Li La, pi, p f 048. 
定理 4.2.1 RE pi py70 BUE TETETET HC Ki, K2, K3, p1, p2,p< 


$4.2 依赖 于 参数 0 的 马尔 可 大 链 Ue 


1 ,使 得 

(1) 对 所 有 g€ L(p)).0€ Qun Z0. x,y 

| Pig Cr) - Pig GO | Kip" N, (DA + lalh + dy]. 
(2) 对 所 有 ,0E Qon 20x mi V qo, 
[pice ea + 1b KA + lal”). 
(3) 对 所 有 gE Lipi), 0, EQ, n>0, € R*, 
| Psg(z) - Pig Ce) | K3N, (g)l0 - 10 El), 

则 对 族 Li(Q Lis Las pis p2 EXER FLb,z) ,存在 函数 站 (6),w 和 仅 依 
HF Lj, p, 的 常数 C1,C2,C(X),0<X<1, 使 得 

G) XB 0,09 EQ, Ih (0) - &(8) | Cil 0-0]. 

Gi) 对 所 有 ,bgE Q ,| Cr) KOU + Eel). 

Cii) 对 所 有 0,0 € Q.A€ (0,1) fll s max( p» q1. 42). 

Iv Gr) -= w Ge) | CGQ010 - 8 PO Lx], 
| Pos) - Peu Cx) | CAJA - 810 larl). 

Civ) (1— P)w 7 fs hC). 

4.2.2 EE 42.1 的 意义 

B DHR f — JE T- 35 EDI GE E 子 集 Q ,转移 概率 族 (P ,0€ Q) 
满足 上 述 假设 (1) (2) (() 3$ PHA TL; CQO BI L; CQ ) 的 每 个 函数 
H(9,xz) 满 足 第 三 章 的 假设 (A.4). 实 际 上 对 fo = PHa 应 用 定理 4.2.1, 得 到 
满足 (D (iD (ii) 的 一 个 解 wwe, 取 va 7 wa + He 一 h(9) 即 可 ( 见 3.1.3 节 关于 
(A.4) 的 注释 b). 正 由 于 此 ,我 们 可 以 讨论 Ho 不 连续 ,而 转移 函数 PoHo 有 下 
则 效应 的 情形 . 

4.2.3 ”定理 4.2.1 的 证 明 


设 /(9,7)EL(Q,Li,L2, pi p2). 
1. 固 定 9, 由 (2) 对 w=1 有 
Ban) S Ka(l + | zla), 
其 中 jy 如 (4.1.2) 定 义 .由 (1), 由 于 
Np CR) < Li, 
(Pfalz) - PIOI Lu Kap" + lala + fyl), 
因此 命题 4.1.2 的 假设 (4.1.9)、(4.1.10) 满 足 , 于 是 存在 函数 A (0) CB 
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Rafo) 和 不 依赖 于 0€ Q 的 常数 K ,使 得 对 0€ Q 有 
[Pafo(x) —h(0)|< LiKp + lalh), (4.2.2) 
而 且 vlr) = 32,29] PhfaGCc) - A CO) | if 
(I ~ Pe)ve = fs - h(0), 
又 由 (4.2.2) 
(vlr) |< LIKA -pA + Dxl*). (4.2.3) 
2.3} 0,0 EQ, 由 (3) 有 
[Pafo(x)— Pfg C) | LiK3l0 - 010 + Ed), 
又 由 (2) 和 (4.2.1) 得 
[Pyfo(x)— Pyfr (x)|= | PRG — fo(z))| 
L210- 0°| py(z,dy)(1 + Ll) 
LK210— 0 |(1+ |x|”). 
从 而 对 =max(LiK3,L2K2),g =max( p2,q2), 
[Pafo(z)—- Pf C) | Ll8- & (1 lal), (4.2.4) 
如 果 考 虑 +=0 的 情形 , 则 令 ” 趋 于 无 穷 ,得 到 
|A(6) - &(6)| Li8- 6]. (4.2.5) 
对 0,0 € Q 和 任意 正 整数 N, 由 (4.2.2)、(4.2.4)、(4.2.5) 有 


< 
< 


Lm) - wGe)| = | X CPIE) = ACO) - Pyfy(x) + 4(0'))| 
«| X PECE) - PifeGOLs 8C) - 400 


+ 2gp) [PIG - ACD] 


«2[NLI? - 01+ LIKO- e) NIA + Ixl), 
其 中 so max(9,41). 

WRO- 0 |21, Gi) A Q) leur fg. Ailo- 6| A, BEAR EXER 
等 式 对 所 有 N 成 立 , 取 N= (logl 0- 6| /logp) + u ,其 中 0<x<1. 那 么 如 果 
L'-L,K - p) ,[ HFX OH, | tlogt| SAO)? Moti 

NL16 - 6| L'oN 
«logl 8 ~ 6|/logg) L8 — 0| L18 — 0 |+ L'ghsl 9-5 | Ae 
xXKQ)l6- 06 + cl - e| cole - ok. 
对 (ii) 的 第 二 个 不 等 式 ,只 需 注意 到 


$4.2 依赖 于 参数 0 的 马尔 可 夫 链 eme 


Pg (x) = >) (Pafa(x) - h(0)), 


即 可 得 出 . 
4.2.4 va 关于 9 为 Lipschitz 的 情形 


我 们 将 给 出 Poisson 方程 的 解 we 关于 9 H Lipschitz 的 条 件 ,我 们 仍然 考 
虚 取 值 于 R* 的 马 氏 链 ,f(09,z) 是 Ri x Rt 上 函数 ;注意 到 定义 (4.1.6)、 
(4.1.7)、(4.1.8) 和 (4.2.1), 如 果 f(0,z) 关 于 xz 可 微 , 则 广 (9,z) 表 示 关于 
x 的 梯度 . 称 关于 z MRR SO, r) AF LIQ, Li, La, pis p2) UR 
(1) 对 所 有 0€ Q， 


|f(0,0) + Ns (fo)|<L. (4.2.6) 
(2) 对 所 有 0,0 EQ, 
|7(6,0) - f(6,0)]  L;18 - 6'|. (4.2.7) 


(3) 对 所 有 0,0 € Qux € R*, 
1f (0,0) - f (6,0)  L;18- 010 ll). (4.2.8) 
容易 看 出 这 意味 着 
Uds a x Li (4.2.9) 
对 La, pa f L^; 函数 
1f(,2) - f(x) Ll0- 010 lael) (4.2.10) 
AUR /对 Lj,p RRFL CQ, Li La, pi, p2) F8 f RFL), 
显然 LIQ)CL;(Q). 
定理 4.2.2 BANA 户 过 0, 存 在 正常 数 Kj),g,,p<1, 使 得 对 任意 可 
WRR g(z) 和 所 有 n20,0,0 € Quz, y€ R*, 
(D) [eGa)Q + 1210 < Ki + Ll. 
(2) Pig Cz) - Pig C) | Kol glo e - yl a+ 1l? yle). 
(3) | Pig Cz) - Pr Co) | Ks ado 8-8 | 1c]. 
(4) | Pig (x) - Pig y) - Pha C) * Po Cy) | 
SKN (g) l0- 0 Ls Lt | ylh). 
那么 对 所 有 属于 LIQ Li, La, pis p RB f (0,2) TETERSII h (0) os Cc) 
仅 依赖 于 Lj, p; 的 常数 Ci,s, 使 得 (TI- Po) vs — fo - h(0) HRR 0,60 EQ, 
TER, 
G) [ACO -AIC l-0]. 
Gi) [vla | C; + 1 zla). 
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Gii) | we(z)- y] C318 0 Lo Eel). 

Gv). | Peng) 7 Py C) | C31 0— 6| Ca 1]. 

注 4.2.2 节 关 于 定理 4.2.1 的 评论 可 逐 句 用 于 定理 4.2.2. 
4.2.5 ”定理 4.2.2 的 证 明 


我 们 可 以 应 用 定理 4.2. 1 ,特别 注意 到 对 gE L;(p), Pg 连续 ,因此 带 有 
转移 函数 Pa 的 马 氏 链 有 惟一 的 不 变 概率 测度 mo, EL ACO) = Raf; = 


f ACO, x )moldæ) E Lipschitz t, EL v = X) (Pf -APm= (Pi 


= hC) vole) 和 Popo(z) 关 于 0 是 Lipschitz 的 .注意 到 
| vr) - wo(z)| = 四 (9,0,z) + u(0,0,x), 


其 中 
Wu1(0,0°,7) = > (Pfo(7) — Rafa — Pyfa(2) + Rs 万 ), (4.2.10) 


P] 


ux 0,0,2) = MOSCA — fg) - Ryl fa — fg)). (4.2.12) 
对 SELIC, Li, Li pi, p2) ,我 们 分 别 考 虑 u, 和 u. Bj,s; 表示 通过 Lj， 
b 仅仅 依赖 于 /的 常数 . 
1. 考 虑 
A,7 (rz) — Pafalx) - Palax) + Pyfolx) 


z [mccain Cy) = Pafo(x) - Pyfo(y) + Pyfo(x)! 


= [rte amis - [Pod Ps) 

= Al +A}. 
利用 (4) 和 (1) 有 

[ARIK KiN, Gn) e18 0° [P(rsdy) (+ Izls + |yls) 
Belo - 60109 |zls). 
因为 [fo]s,+1<L1( 从 (4.2.9)), 有 (2); 对 所 有 0€ Q ,有 
Pfad un < Kail folp i < Boñ. 
利用 (3) 有 
ATI Ks Prf] 18 — LO + Led) 
< Biel 0 — 6| (1 | ed). 

最 后 对 p= maxl pi ,p21 得 到 


$4.2 依赖 于 参数 9 的 马尔 可 夫 链 ds 


| A, | & Bag 18 - 8| (1 xl), 
| P8 falx) — Pafa(x) — P^ fala) + Pyfol(zx)| 
«B4 - e)e'l8- 8 100 xl). 
kooi} ; 
| PifaCc) - Pafa(x) — Pä falx) + PofoCc)| 
«B4 - eg) !gló - 6 | xl). 
因而 
uy(0,0 x) & Bsl0 — 8| a5). (4.2.13) 
2.4 06,0 € Q flit fo — fly, 
| Ab,z) -= f(x) + f(0,9) - f(O',)] 


Gz = xo BF iT 2) - fic iG - 20d 


xXBglx - yll6— 010 |xl^ + | yl^), 
因而 
fo 7 fals, x Bgl6 - |. 
由 (2) 
[Py(fo- for)(x) -Py(fo -fo)(y)| 
SBspil x -yl + | xl?! + | yla), 
利用 引 理 4.1.1 和 (1) 得 
| P$ Cfo — fela) - Pel fo - fo)| 
xBsepll x — yl (0 4 | xla), 
立即 得 出 
u2(0,0°,7) < B10- 01(1+ |zr|?+). (4.2.14) 
不 等 式 (4.2.13) 和 (4.2.14) 意 指 (iii). 


4.2.6 ”转移 概率 P, 不 依赖 于 6 情形 


许多 算法 的 转移 概率 P 不 依赖 十 9, 且 参数 9 只 在 和 (9,z) 中 出 现 .这 样 
定理 4.2.1 和 定理 4.2.2 的 证 明 就 可 以 大 大 地 被 简化 ;两 种 情况 转移 概率 DP 
只 需 满足 (1) 和 (2) 就 够 了 .要 获得 全 局 性 的 结果 ,利用 第 一 章 的 定理 3.7.1 更 
为 容易 ( 见 (3.7.4) 和 (3.7.5)). 讨 论 中 我 们 将 利用 下 面 的 定理 . 

关于 z 可 微 的 函数 /(9, xz) 称 为 属于 LR, Li, La, pi» p2) ,如 果 对 于 
所 有 0,0 € R^ c y, 2 € R* ,满足 

150,2) - f(8,y)l Lia 10D) zr- yl lalh e | y]^). 


(4.2.15) 
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|f(0,0) - f(6,0)| Ll0- 0. (4.2.16) 
1f£/ (0,2) - £F (8x) L118- 010 lael). (4.2.17) 
如 果 该 函数 对 Lj , p; 的 某 值 属于 元;( Re | Li, Los pis p2) ,就 称 它 属于 族 
Li(R’). 
定理 4.2.3. $ PHR 上 的 转移 概率 . 设 对 于 所 有 的 p 宇 0, 存 在 正常 
数 Ki,K2,p<1, 使 得 对 所 有 gE Lp), nZ0, c y 2 € Rt, 有 
(0 [Ga + yl < K0 + Lael). 
(2) | Prg(x)—- P'gCy) Kop Lal, x - yl (1 | xl? | yl^). 
则 对 所 有 属于 族 L;CRA Li, L2, pis 02289 /(0,z), 存 在 函数 h (0), vo 和 仅 
依赖 于 ,pj 的 常数 Ci WE - P)us — fo - h CO) IRA 0,0 € R^, 
In(0) - HC) | Cua - 0l, 
| wo) CA 1^?) (1 101), 
|w(z) - e Ge) | Clo- ELO + Laeli), 
| Pu(x) - Pog(x)| C400 - 0100 + xl), 
证 明 w(z) 的 上 界 从 引 理 4.1.1 可 得 , | va- wz| 的 上 界 可 如 同 4.2.5 
一 样 地 考虑 u,(9,0 ,xz) 得 到 . 


$4.3 线性 动力 系统 


我 们 考虑 取 值 于 R^ 的 过 程 (X, ) ,其 定义 如 下 
X, = A(O)X, + B(0) Wi, 
JU A(O) kx b lE, BCO) 3 kX k HERE, (W, HEURT RE 的 独立 同 分 
布 随机 变量 列 .我 们 将 证 明 在 适当 的 正则 假定 下 ,与 这 样 的 马 氏 链 相 关 的 转移 
概率 族 ( Ps) 满足 定理 4.2.1 和 定理 4.2.2 的 条 件 . 因而 第 三 章 的 结果 可 用 于 
4.3.1 ”假设 和 记号 


设 对 所 有 p20, 
I W, li, su, < œ. (4.3.1) 
4 Q 表示 R 的 一 个 子 集 , 设 存在 正常 数 ai, a2, ĝi, B2, MO p X 1, (43t 
所 有 0,0 EQ, n20, 
lAG)I a, |A(0) - AC) 18 — 0|]. (4.3.2) 
| A"(0)| < Mø", 


$4.3 线性 动力 系统 


ijy 


IBIS pg. (BO) - BG) &l8- 9l, 
U,(0) = 3] A*() BC W,, 


V,(0) = X ACG)BO)W,, 
Pig(x) = Elg(A(Q) + BG)Wj)I. 


(4.3.4) 


(4.3.5) 


(4.3.6) 
(4.3.7) 


注意 到 由 | Wi, W3,…, Wi 的 分 布 的 对 称 性 ,随机 变量 U,(9) 和 V. CO) dS] 


分 布 的 ,于 是 易 证 


Pg(x)= Elg(A"(0)zr + Un(9)) = Elg(A"(0)zr + V,CO)I. 


4.3.2 ”预备 结果 


(4.3.8) 


引 理 4.3.1 ”对 所 有 的 p 宇 0, 存 在 常数 K, K2 ,使 得 对 所 有 0,0 € Qu 


zo, 
(1) I U,C) Il S Ki. 
(2) | U,(0) - U, (0) | K,18-0'l. 
另外 对 每 个 0€ Q,V,(9) a.s. 收 敛 , 且 L^ 收敛 于 V。(b). 
证 明 因为 


lU, C) ll Ù LAT (CO BCOD W, Ii, 


n 


& Y) a0) IE BOD LL wl, 


ia 


< Mẹ: X gn, 


a 
< MPI(1 - p)'!p,. 
再 注意 到 如 果 A, 和 A 为 方 阵 (不 必 可 交换 ), 则 
Ai - As = MATH, - AQA! 


U,(0) - UC) 2, (A> (0) - A"7*(9)) BC) W, 


+ 2) A"*(0')(B(0) - BG?) W, 
E 


= Z,(0.0) + Z,(0,0). 
因为 


(4.3.9) 
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| A'7*(0) - A"*(0)|= | 2)A" ((AC -AAO | 


m 
x |A() - A)| 32 LAT *7€0) I AT (97)1 
Er 


x a310 - 0 IM? (n - k)", 


[4 
Il Z^, (0,6) ll; Bimal 0 - PIM O - k) 
< K;lp)l0- 0l, 
120,0) ll, Bonló — LO d 
< Ks(p)10- 8l. 
从 而 


U0,(0) - UC?) ll, < Ka(p)10- 8l. 

于 是 V,(9) 为 独立 随机 变量 , 且 sup, | U, (O) | ,1 是 有 限 的 .从 而 V, (9) 
a.s WO, EL L^ 收 化 于 Vs(9). 

作为 引 理 的 结果 , 若 记 随机 变量 V。。(9) 的 分 布 为 we, 由 A" CO) ac 收敛 到 
零 ,从 (4.3.8) 可 得 对 任意 有 界 连 续 函 数 GO, Pig (AF [g(x)dmo(z) 
= Rg. 容易 看 出 me 是 转移 概率 为 Py 的 马尔 可 夫 链 的 惟一 不 变 概率 ,这 点 
也 可 以 从 命题 4.1.2 以 及 4.3.3 节 将 要 建立 的 Pp 的 性 质 得 出 ， 

4.3.3 ”下 的 性 质 


518 4.3.2 ”对 所 有 的 p 宇 0, 存 在 常数 C. C2. C3, C4,0< pi<1, 使 得 
对 所 有 的 0,0 EQ; r, yE Rn 20, g, 
@ [PiGz ay) + 1») < e + lel’). 
(b) | Pig C) - Pig GO | CoL lr- y+ E]? Ly 1^). 
(c) | Pig Cc) - Pj Ge) | Cs 1,18 01 Qo Ee l^*2). 
(d) | Pig Cc) - Pig Cy) - Phe) * Pr) | CAN Gg ) p |r- yl I 
* [xl^*1 | y]o*?), 


证 明 不 等 式 (a) 
[pica *[yl^)2 E(1 | A"(0) + U,CO) |^] 


x CO» + MI zl? + E[U,CO)|?] 
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<C) + lal’). 
不 等 式 (b) 
| Pig Cx) - Pig Cy) 
=| E[g(A”(8)x + U,C) - gCA"(0) y + U,C))]| 
-[g1,I A*C) l| x- ylEU + | AC) x + U,CO) |^ 
+ |A"(0)y + U,CD|^] 
xMCO)Lgl, lx- yl + lal? + yl’). 
不 等 式 (c) 
| Pig Cx) — Pyg(y)| 
= | ECgC A" CO). + U,CB)) - gC AY) + U,9))]] 
Lal, | EILLA" (8) - g(A" (0) ll zl 1 U,CD) - UC] ] 
[1+ | A"(C) x + UC) |^ + | A"CO) x + UC) |^] 
xU], I| A"(8) - CA"C9) Il x! 
+ [UC - UC?) MCCA + |zx1?) 
xCGDLg 15 [M?al8 — 8" Ing"! | zl 
+ I UCO) - U.C aO Led) 
SC3p)10- 01 Lal?) 
(这 里 利用 (4.3.9) 估 计 | A^ C0) - CA" C?) D. 
不 等 式 (d) ,我 们 必须 估计 
a= |E[g(A"(0)zx + U,(0)) — g(A"(0)y + U,(0)) 
- g(A"(0)zr + U,(?)) - g(A"(0)y+ U,(0))]| 
= [ELA CC; S afir TAO a + U, (0) + 1A"(0)(y — x) ldt 
- An - n'a Ln Ga + UO) + 1A" OD Gr ~ 2) ldt 
«&g|Ia*eo) - A'O) V y= el ftnt + Uc 
+ A"(0)(y - 2) [ar] 
+ E| LAG I y= el Ita toa + UL CD + AnOXG a) 


SKTA") + ULT) + 1A"(0)(y - 2) | di] 
zmbtc, 


ips 第 四 章 应 ”用 


bsc M?arl 0 - 0 Ing" ly - zxIN,(g’) 
. CINE + | A" (0) + U,C) + tA" CO) Cy — x) |?! ]dt 
0 


x CGO»pgtl8 - 0 ly - IN, gA + lalt + |y|?*!), 
cx Mply - xIN, GI) 
[LEILI AO) = anco Mæl + LUC) ~ USO e lA" CO) 


A"(0)l y - xi l[i + |A"(0)r + U,C0) + rA" (0) Cy — x)|? 
+ | A"( )z + U, (0) + tA" (0 )Cy - x)|’ ]}dt 
xCG)»g 18 - 8 Inly - x ING + læt | yl?*!). 
于 是 完成 了 引 理 的 证 明 . 


4.3.4 ”验证 假设 (A.4) 


考虑 算法 
0,0 = On + Yna HOn, X4), 
X,4 = AC(Q0X, + BCO)W, 4. (4.3.10) 
在 引 理 4.3.2 中 建立 的 ( Ps) 的 性 质 使 我 们 能 够 运用 定理 4.2. 1 和 定理 
4.2.2, 得 到 下 面 命题 . 
命题 4.3.3 4 DHR 的 一 个 子 集 . 设 序列 (W,) 满 足 (4.3.1); 并 且 对 
D 的 任意 紧 子 集 QQ, 和 矩阵 A (0) B(0) 满 足 (4.3.2)、(4.3.3); 那 么 如 果 
H(8, x) PHC) AF Li(Q)( 见 4.2.1 节 )( 或 属于 族 .LI(Q), 见 4.2.4 
节 ) ,对 D 的 任意 紧 子 集 Q, 算 法 (4.3.10) 满 足 (A.4), 对 所 有 A<1( 对 4A=1， 
见 3.1.3 节 ). 
如 果 现 在 我 们 考虑 其 动力 系统 不 依赖 于 9 的 算法 
Onsa = On + Y, AHCÓ Xo), 
X, = AX, + BW, (4.3.11) 
利用 定理 4.2.3 得 到 下 列 算法 . 
$8: 4.3.4. WTSUCW, RE (4.3.  HXE 0 p 1, | A" | Mp? JU] 
如 果 HCÓ , £) PHa(z) 属 于 族 L;( RA)( 见 4.2.6 节 ), 算 法 (4.3.11) 对 A= 
1 满足 第 三 章 的 假设 (3.7.3) (3.7.4) 和 (3.7.5). 


$44 例子 ELM 


$4.4 例 F 


4.4.1 ”接收 信号 的 马尔 可 夫 表 示 


我 们 以 向 量 
YT = Gwen yn-N), (4.4.1) 
表示 在 n - N,…,n + N 时 刻 接 受到 的 信号 ,其 中 N 三 0 为 固定 整数 . 设 收 到 
的 信号 y, 有 马尔 可 夫 表 示 

(1) U, 7 AU, -+ Ba,. 

(2) »,« 7 CU,-1* v. (4.4.2) 
以 上 A.B FIC 为 有 适当 维 数 的 矩阵 , 且 A 的 特征 值 的 模 严 格 小 于 1,(a,， 
vw, ) 为 独立 同 分 布 的 随机 变量 列 , 其 中 a, 和 vw, HEI, BF E XR, E H 
R 的 某 个 有 限 子 集 .我 们 假设 var( v1) 不 等 于 零 ,并 且 对 所 有 p 宇 0, El vi]? 
«o. 

(1) gi (a, as N), (4.4.3) 
引入 “状态 向 量 ” 

(2) X, 7 (U, Y,, n)» 

X, J& RV 中 的 向 量 , 记 RV 的 一 般 点 z 为 

(3) z=(u,Y,an,…,a0). 


容易 看 出 
(1) X, 42 DX, + Da Wat, 

其 中 
(2) |Di|<Mpo",0<p<1, (4.4.4) 


(3) WI= (an,n). 
那么 由 D, 与 A 有 相同 的 特征 值 可 得 (4.4.4-(2)). $4.3 的 结果 意 指 马 尔 可 
夫 链 (X, ) 有 惟一 不 变 概率 m, E 


C) [gGdmG) = ElgQx 9s 


(2) X. = X DDW; (4.4.5) 
21 
(3) X - (Us, Ys, aX, sag). 
最 后 注意 到 如 果 设 
R. = E| Yo YLI. (4.4.6) 


则 矩阵 R ,正定 .实际 上 ,如 果 把 WI 写成 形式 WI = (an, 0) + (0, vn), WAT 
看 出 


ye -(YL € YL), 
其 中 YL 与 YLEI, H ELYLCY2)TI -var(vi)* 1. 


4.4.2 ”横向 均衡 器 ,学 习 阶段 


考虑 下 列 算法 
Onst = On + Yasi Ynrilan-n = 01 Yu). (4.4.7) 

其 中 Y, 由 (4.4.1) 给 出 , 且 满 足 于 4.4.1 节 的 假设 .这 是 一 个 线性 动力 系统 
的 算法 ,不 依赖 于 6, 属 于 (4.3.11) 类 型 ,用 (4.4.3-3) 的 记号 ,有 HCÓ Y) = 
Y(ao- 6*- Y) HCÓ, AT L,CR^) (8.4.2.6 节 ), 由 命题 4.2.4, 对 A 
=1 可 运用 定理 3.7. 1-b. 故 考虑 (4.4.5) 和 (4.4.6), 得 到 

(1) &(8) - El Yota | - R. 6 

(2) 6.  R'ElYs'agl; (4.4.8) 

(3) U(60) (0-8. ) -R.*(8-0.). 
如 果 y, < co , 则 可 得 出 0, 一 0，. 


4.4.3 ”最 小 二 乘 算法 


考虑 下 面 形式 的 算法 

(1) 6,176, Y, AR Ys a(as ag 701 Ypsi), (4.4.9) 

(2) Rpa = Rp + Y, (Y ua Ya R,). 

其 中 Y, 满足 4.4.1 节 的 假设 , 且 yl < co. 

Ti Ro 选 为 对 称 的 , 则 可 假设 R, 也 是 对 称 的 矩阵 ,那么 算法 (4.4.9) 就 取 
值 于 RON! x RONIDONIDA Gb 2N +1 阶 的 对 称 逢 阵 的 集合 M, 等 同 于 
RON*DON*22 in M, 中 正定 矩阵 构成 的 子 集 为 M: . 

首先 注意 到 R, 几乎 必然 收 化 于 R.。,R .如 (4.4.6) 定 义 .实际 上 ,第 三 章 
的 定理 3.7.1-b 可 被 利用 ,其 中 

A(R)--(R-R.),  U(R)- lIR- R. l2. (4.4.10) 
再 注意 到 Y, 所 有 阶 的 矩 关于 ， 有 界 , 且 
ELD (72| Ya - YT Ki x2. 
所 以 y Y, YT 几乎 必然 收敛 . (4.4.10) 由 R. € M? 可 构造 一 从 M, SIM: 
的 正则 函数 u 使 得 

Q) YR, lu(R)| KK; <. 

(2) I[R- R. |glIu(R) - R^!|. (4.4.11) 
类 似 可 构造 一 从 M, 到 M, 的 正则 映射 ,满足 
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(1) VR, |o( R)| K5« eo. 
(2) II RII, - 12a 21-1 * aR) ! 5 17 aR t à? o(R)T. 
(4.4.12) 
引入 算法 
(D 6,,170, + Y, cau (R,)S, (a n= 0 Ya), 
(2) R7 Rp + Y, a(YiaYLa- R,), 
S, a Et Ya Yu a Yrau(R)) 
*Yosavl Ya Y a YTau( R,) - 0]. (4.4.13) 
XL a= y!2,f R= y12,CY, a YT au (R,) - D),18(4.4.12 - (2)) 
Ya «12, 
Y | Y.aYTau(R)| 142K, (4.4.14) 
我 们 有 
Sia = M + Yna Yna Yu (Ra) - DI, 
则 由 (4.4.11-2), 如 果 | RR, | <8, 04 
u(R,)S, 4 = R HA Yona(YoaYTau(R,) - Dl = Rh, 
(4.4.15) 
那么 由 RR .和 (4.4.10) 的 收敛 性 ,存在 一 个 时 刻 no( 随 机 的 ), 此 时 刻 后 算 
法 (4.4.9) 和 (4:4.13) 一 致 .因此 证 明 (4.4.13) 对 任何 初始 条 件 都 a s. 收敛 
就 够 了 .但 是 如 果 设 
On = (0,,R,) (4.4.16) 
算法 (4.4.13) 则 为 公式 (3.1.1). 利 用 定理 4.2.3( 或 命题 4.3.4 E y2 ,1p。 
( 0,，Xn+1) 的 变形 ) 立 即 看 出 下 面 函 数 是 满足 第 三 章 的 定理 3.7. 1 的 假设 
(3.7.1) 到 (3.7.5). 
(1) 4(8) 2 CH(CO) ,45(0)). 
(2) h1(@)= - u(R)(R.0- C). 
(3 ^8) 7 - (R- R.). 
(4) £2 ElYs'agl. (4.4.17) 
( 见 (4.4.5)). 为 了 能 够 运用 第 三 章 的 定理 3.7. 1-b, iE 
U(8) =(9-6.)T.R. (6-0.) €(R - R.)'(R - R.), 
(4.4.18) 
其 中 0. - Rz g KREME U', 表示 关于 9 的 梯度 , U 表示 关于 R W 
梯度 , 则 有 
U( 6)A(9) = U(8) - (80) + U2(8) - h,(8) 


. 88^ 


--2(0- 0.) RTu(R)R.(Ó - 0.) 

-2(R - R.)'(R - R.), 
那么 由 于 对 所 有 尺 ,RITvw(R)R.EAM; „ATR 070. fl RR. AF U'(O) 
*h (0) X0. 3X SEUEBH T (4.4.9) EH 0, a s KAF 0. = RI E. 


mn 


第 五 章 遗传 算法 


遗传 算法 (genetic algorithms) 是 一 类 模拟 达尔 文 自然 进化 论 与 孟 代 尔 遗 
传 变异 理论 的 仿生 优化 技术 . 它 借 喻 生物 进化 过 程 特别 是 遗传 学 的 术语 与 原 
理 求解 问题 ,具有 生物 基础 坚实 , 认 知 科学 鲜明 ( 它 提供 从 智能 生成 过 程 观点 
对 生物 智能 的 模拟 ) 和 对 任何 函数 (特别 可 以 无 表达 式 或 有 表达 式 而 不 可 能 精 
确 计 算 的 函数 类 ) 可 用 等 突出 特点 . 

遗传 算法 的 产生 归功 于 美国 Michigan 大 学 的 HollandL3] 在 20 世纪 60 年 
代 末 ,70 年 代 初 的 开创 性 工作 . 近 十 几 年 来 ,遗传 算法 不 论 是 在 应 用 上 ,还 是 
在 基础 理论 上 都 取得 了 长 足 的 发 展 .已 成 为 信息 科学 .计算 机 科学 ,运筹 学 和 
应 用 数学 等 诸多 学 科 所 共同 关注 的 热点 研究 领域 ,近期 研究 主要 是 围绕 如 何 
提高 算法 效率 和 建立 算法 理论 基础 . 本章 介 绍 遗 传 算法 的 一 些 数学 基础 理论 . 
$5.1 介绍 遗传 算法 的 基本 概念 ; $ 5. 2 定义 经 典 遗传 算法 的 遗传 算 子 (选择 
算 子 ,变异 算 子 和 杂交 算 子 ) 及 其 有 关 性 质 ; $ 5.3 将 遗传 算法 机 制 纳 入 随机 
过 程 分 析 的 框架 ; $ 5.4 讨论 遗传 算法 的 Markov 链 模型 . 


85.1 基本 概念 


遗传 算法 是 一 种 仿生 算法 , 它 是 从 一 个 初始 群 出 发 ,不 断 重 复 执行 选择 ， 
杂交 和 变异 的 过 程 ,使 种 群 进化 越 来 越 接近 某 一 目标 . 
定义 5.1.1 (个 体 和 个 体 空间 ) ”所谓 /个体 ; 是 长 度 为 ! 的 0 和 1 字符 
串 ,简称 个 体 ;! 称 作 个 体 的 链 长 ,/ 个 体 的 全 体 记 作 1= 10,117, 称 为 个 体 空 
fü]. 
FERGIE f AES , e B E ff (chromosome) ,个 体 的 分 量 称 作 基 
因 的 位 置 (gene 或 locus) ,分 量 的 可 能 取 值 称 作 等 位 基因 (allele) . 
例 5.1.1 (函数 优化 问题 ) 给 定 目标 函数 F(z): RR 及 优化 问题 : 
maxl F(x):x € Rl. 
遗传 算法 是 通过 操作 可 行 解 € R" 的 0-1 字符 串 编码 求解 优化 问题 . 因 
此 遗传 算法 所 求解 的 优化 问题 为 : 
max| f(i):i € 10,111, 
fli) = S(F(e-!(i))), 
Herp eC): R"- 10,1 为 编码 映射 , S ER UR * 的 增 函 数 . FC ) 称 作 适 应 什 
函数 , FC) Be z 的 适应 值 .通常 采用 的 编码 映射 为 固定 长 度 的 二 进 制 编码 ， 
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即 把 任何 一 个 可 行 解 表示 为 长 度 固定 的 二 进 制 近似 . 

一 般 地 ,一 个 个 体 的 分 量 可 以 在 10,1,…,al 中 取 值 ,这 时 个 体 空间 为 了 = 
10,1, at. 

定义 5.1.2 (种 群 和 种 群 空间 ) 所 谓 m 种 群 ,是 m 个 个 体 组 成 的 集合 
(个 体 允 许 重复 ) ,简称 种 群 ,m 称 作 种 群 规 借 , 称 

P = |z:r= (rz), El, 1 去 上 去 mi|. 

为 m 种 群 空间 . 

在 以 下 的 叙述 中 ,我 们 将 不 加 特别 指明 地 交替 使 用 种 群 的 集合 形式 ,向 量 
形式 .记号 CACI 表示 .xz 作为 一 个 集合 包含 在 A 中 . 

定义 5.1.3 (母体 与 母体 空间 ) 所 谓 母体 就 是 一 对 个 体 ,对 一 对 个 体 通 
过 繁殖 产生 新 个 体 ( 即 后 代 ), 用 P= 1(i,j):i,jE 及 表示 所 有 母体 , 称 作 母 
体 空间 . 

定义 5.1.4 ( 齐 次 种 群 ) 种 群 x = (zl,za,…,zw) 被 称 为 是 齐 次 种 群 ， 
ARV Es <m, x= zx 用 UP 表示 规模 为 m 的 一 致 种 群 全 体 .用 |A | 表 
示 包 含 在 集合 A 中 的 元 素 个 数 . 

遗传 算法 操作 的 对 象 是 种 群 , 它 模拟 自然 演化 中 的 选择 ,繁殖 与 变异 等 机 
制 ,通过 种 群 的 迭代 来 搜索 全 局 优化 问题 的 最 优 解 . 遗传 算法 的 实施 有 多 种 方 
式 ,我 们 将 讨论 最 基本 的 两 种 . 

(A) 标 准 遗 传 算法 (canonical genetic algorithm, CGA) (1) 

(1) 置 ,=0, 随 机 产生 初始 种 群 X(0) = (X4, (0), X20), =, X, (0)); 

(2) 独立 地 从 当前 种 群 中 选取 m 对 母体 ; 

(3) 独立 地 对 于 m 对 母体 进行 杂交 得 到 个 中 间 个 体 ; 

(4) 独立 地 对 杂交 后 的 m 个 个 体 进 行 变异 ,得 到 下 代 种 群 

XG +1) = (X(t +1), Xat + D, X, (t +1)); 

(5) 若 停止 准则 满足 , 则 停止 ;否则 置 := + +1, 并 返回 到 (2). 

(B) 杰 出 选择 遗传 算法 (elitist selection genetic algorithm ESGA) 4! 

(1) 置 :=0, 随 机 产生 初始 种 群 X(0) = (X1(0), X20), =, X, (0)); 

(2) 独立 地 从 当前 种 群 中 选取 m -1 对 母体 ; 

(3) 独立 地 对 m 1 对 母体 进行 杂交 得 到 m 一 1 个 中 间 个 体 ; 

(4) 独立 地 对 杂交 后 的 m 一 1 个 个 体 进行 变异 ,得 到 下 代 种 群 的 前 -1 
个 个 体 


Xi +1), X(t 1), Xia +1); 
(5) 计算 ;= arg maxl f(X, (02): 91, ml 令 
Xm(t +1) = X;(t); 
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(6) 若 停止 准则 满足 , 则 停止 ;否则 置 := :+1, 并 返回 到 (2). 
在 杰出 选择 遗传 算法 中 ,i= arg max| f(X (2): 21, m Lom fl 
了 (Xi(7)) 取 最 大 值 的 个 体 为 X;(7). 


$5.2 遗传 算 子 及 其 性 质 


遗传 算 子 解决 种 群 到 新 种 群 的 产生 方法 , 它 是 遗传 算法 对 自然 演化 中 种 
群 更 替 机 制 的 类 比 与 抽象 ,通过 作用 于 当前 种 群 ,产生 新 种 群 ,以 达到 搜索 全 
局 最 优 解 的 目的 .常见 的 遗传 算 子 有 选择 ,杂交 和 变异 .给 定 概率 空间 (0 L7, 
P) ,小 写字 母 x, y a,b 等 表示 确定 性 种 群 ,大 写字 母 X,Y 等 表示 随机 种 
群 ,R(1") 是 取 值 于 1". 的 随机 种 群 全 体 .下 面 给 出 选择 ,变异 和 杂交 算 子 的 

定义 5.2.1 (比例 选择 算 子 ) 比例 选择 算 子 是 一 个 随机 映射 S: 严 一 
RO" ) 满 足 : YzE 1” ,随机 种 群 SC) = (Y1, Yu) E I" t m War 
复 实验 产生 ,随机 个 体 Y, 的 概率 分 布 为 


PIY = ij = AD, equae. 


Fr 
这 里 z(i) 是 种 群 x PEME i 的 个 数 . 
特别 当 m =2 时 , 称 它 为 母体 选择 算 子 . 令 
B'-li€ RfG)2 fü)Vjerm, 
n(x) 7 |z 1 B'*l, 
p maxl fG) fG):fG) € fG).i,j € IL « 1. 
B" 中 的 个 体 称 为 优化 问题 的 全 局 最 优 解 . n(xz) 是 种 群 x 中 含有 全 局 最 优 解 
个 体 的 个 数 .在 一 些 文献 中 o 被 称 为 选择 压 . 
定理 5.2.2 ”比例 选择 算 子 具有 下 面 性 质 : 
(1) 对 任意 种 群 € I", PISCr)C | 1. 
(2) 对 任意 一 致 种 群 +=(i,i,…i)EU,PIS(z)=zi=1. 
(3) PCS(X)CB* )2[1- (n - Dp)" . 
证 明 (1) 和 (2) 是 显然 的 .只 证 明 (3), 因 为 


. 2A TAIE T nlx) f" " 
P(S(x)CB = [855] E [c +5 nl 
e 


: [n - i£ nut 


a(r)* M) FOF l 


i£znB" 
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i fi m - n(z)p. 了 


Ca) + On - n(x))p 
>[1- (m - Del". 

定义 5.2.3 (杂交 算 子 ) 杂交 算 子 是 母体 空间 到 个 体 空 间 的 一 个 随机 
映射 C: PI. 

(1) 单 点 杂交 算 子 :等 概率 地 随机 确定 一 个 基因 位 置 做 为 杂交 点 ,再 把 一 
对 母体 两 个 个 体 从 杂交 点 分 成 前 后 两 部 分 ,以 概率 p. 交换 两 个 个 体 的 后 半 部 
分 得 到 两 个 新 个 体 , 取 第 一 个 个 体 为 杂交 结果 . 称 pe 为 杂交 概率 . 

(2) 如 果 等 概率 地 随机 确定 两 个 基因 位 置 做 为 杂交 点 ,将 一 对 母体 的 两 个 


个 体 分 成 三 部 分 ,交换 中 间 部 分 ,这 样 的 杂交 算 子 称 为 两 点 杂交 算 子 .类 似 地 
可 以 定义 多 点 杂交 算 子 . 


(3) 均 匀 杂 交 算 子 : 独 立地 以 概率 p. 把 母体 的 第 一 个 个 体 的 相应 分 量 交 
换 为 第 二 个 母体 的 相应 分 量 , 从 而 得 到 杂交 结果 . 

定理 5.2.4 (DUE C 为 单 点 杂交 算 子 ,p. 为 杂交 概率 ,VY (i,j)€ I, k 
E17, 则 有 

fap/l, k#i, 

la- p) +tap/l, kei. 
其 中 asali, j, kb HRR C) REDAZE JR k 的 基因 位 置 的 个 数 . 

(2) 设 C 为 均匀 杂交 算 子 , p, 为 杂交 概率 ,VY C) € P, kE i= C, 
ied) m Gija sj) WA 


P|C(i,j)= k} = (5.2.1) 


PIC(i,j) = kl = Ita -Pk D i) + p(k, D j2]. (5.2.2) 
其 中 昌 为 异 或 算 子 , 即 对 于 任意 a 0€ 10,101 
1, #a=b, 
eme ho dab. 

证 明 〈1) 分 两 种 情形 考虑 :在 & 天 ; 时 ,取决 于 杂交 (i,j) 可 以 生成 的 
基因 位 置 的 个 数 a ,因为 杂交 的 概率 为 p. , 故 PIC(i,j)=k| =ap./l; 当 k= 
i 时 ,车 i 与 ; 不 杂交 , 即 为 &=i, 这 时 概率 为 (1 - 户 ), 若 ; 与 ; 在 任何 杂交 点 
以 概率 p. 杂交 ,这 时 概率 为 ap./1. 故 (5.2.1) 成 立 . 

(2) 设 C 为 均匀 杂交 算 子 ,考虑 & 的 第 s 个 分 量 ,车 i 与 j. 相同 ,这 时 不 
杂交 ;而 当 i jj, 不 相同 时 , 则 杂交 .于 是 利用 全 概率 公式 得 (5.2.2). 

推论 5.2.5 ” 设 C 为 杂交 算 子 ( 单 点 杂交 ,均匀 随机 杂交 ) ,对 任何 母体 
GJ) ME PICG,i)-ilz1. 

3385.2.6 Wt CON SOS Jer SA REEL S: >R(P) EHK 
择 算 子 , 则 对 任意 种 群 z= (zl, za,…,zw), 有 


$5.2 遗传 算 子 及 其 性 质 .9%， 


PIC(S(z)) = n|l»0, Vs-l.-,m. 
证 明 因为 
PIC(S(z)) = x12 PIC(z,,z) = xl PISQG) = G2] 
= PIS(x) = Gr. x)! 


= [Ve Sr)F » o. 


推论 5.2.7 WE S:1" 一 R( 了 2) 是 母体 选择 算 子 ,C 为 杂交 算 子 ,x = (i， 

…,i) 为 一 致 种 群 , 则 有 
PIC(S(zr)) = zl = 1. 

EX 5.2.8 (变异 算 子 ) 变异 算 子 是 个 体 空间 到 个 体 空间 的 随机 映射 
M :其 作用 方式 为 独立 地 以 概率 p, 改变 个 体 每 个 分 量 取 值 . p,, 称 作 变 异 概 
率 . 

定理 5.2.9 ”对 于 任意 两 个 个 体 € Uf 

PIM(i) = jl = PEPA - p, )trd6n, (5.2.3) 
其 中 4C j) 488 i 和 j 的 Hammin 距离 . 即 
i 


dli j)= Mlü- jl. 
1 


证 明 因为 ij, 的 个 数 为 (i,j), 每 个 i 变异 为 j, 的 概率 为 p,, ,而 i 
=j, 的 个 数 是 ! - di 让 ) 个 ,不 变 的 概率 为 1 - 加 ,由 于 每 个 基因 变异 是 独立 
的 , 故 (5.2.3) 成 立 . 

注 5.2.10 ”基于 生物 学 上 的 考虑 ,一 般 认 为 杂交 是 自然 演化 的 主要 机 
制 ,变异 为 自然 演化 的 背景 ,它们 分 别 承担 遗传 与 变异 两 种 功能 .因此 在 具体 
的 应 用 过 程 中 ,杂交 概率 一 般 取 值 较 大 ,在 0.65 与 0.9 之 间 . 而 变异 概率 取 值 
较 小 ,一 般 在 0.001 与 0.01 之 间 . 

定理 5.2.11 设 S:1"R( 了 1?) 是 母体 选择 算 子 ,C 为 杂交 算 子 , M 为 
变异 算 子 ,对 任意 种 群 z= (zl,za,…,zn)E I" 和 个 体 jE I, 

PIMCS(z)= j| >0 
成 立 的 充分 必要 条 件 是 0< p, <1. 
证 明 充分 性 若 0< p, <1, 则 有 


PIMCS(z) = il = MPIMG) = 让 PilCSs(z) = jl 50. 


E 
必要 性 假设 p=0, 取 xz=(i,…,i) 是 一 致 种 群 ,jE Lj i| 
PICS(z) = il = 1, 


PIM(i) = j} =0, 
所 以 
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PIPCS(x) = j| = PIMG) = jIPICS(x) = il = 0. 
与 PIMCS(zr)=j|>0 蔬 盾 . 


$5.3 ”遗传 机 制 的 过 程 分 析 


在 遗传 算法 中 ,有 选择 ,杂交 和 变异 机 制 ,对 于 这 些 机 制 的 性 能 分 析 是 遗 
传 算法 分 析 的 基础 ,而 这 种 性 能 分 析 必 须 在 遗传 过 程 中 进行 ,为 了 理论 分 析 的 
需要 ,我 们 考虑 无 限 种 群 的 情形 . 
定义 5.3.1 取 值 于 个 体 空间 /的 任 一 随机 元 & 称 为 一 个 无 限 种 群 , 记 
a -Pl£- il, iE 
A 7 (aisi € I). 
我 们 也 称 的 概率 分 布 向 量 A 为 一 个 无 限 种 群 . 
种 群 是 无 限 种 群 的 特殊 情况 . 
对 于 给 定 的 适应 值 函数 f(i) ,i€ 17, 令 
Fj= Xf) jE 


其 中 0,790 函数 , 即 
| i=j, 


9 7| wig, 
用 下 表示 2! x 2! MEE): 6.1 表示 2 个 分 量 全 为 1 的 向 量 , 记 向 量 
FD: = gi (5.3.1) 
即 对 任意 i€E 1 有 
: Oa 
F(A); E 
) TM (5.3.2) 


称 F(A) 是 无 限 种 群 A 通过 适应 值 比例 选择 而 得 到 的 新 的 无 限 种 群 归纳 地 
可 以 定义 


F?(A) = F(F(A)), 
F(?(A) = F(F(" D(A)), n= L2,- 
利用 归纳 法 不 难 验 证 
 fGG)a 
Br De 
设 & 是 1 上 的 初始 无 限 种 群 ， 用 E, 表示 经 过 步 适 应 值 选 择 得 到 的 随机 
个 体 , 即 它 的 概率 分 布 是 FOCA), 5 21,2, dd 人 := 8, 我 们 有 
Pl& = il = F?(A),. 


F™(A); = i€I. (5.3.3) 
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定理 5.3.2” 设 是 ! 上 的 初始 无 限 种 群 具有 分 布 A= (ai:iE1) 记 
Io = li:a; > 0}, 
L = li € 1o:f(i) = maxf(j)} 


则 有 
jl Xn i€l, 
aj = limPl& = il = RN (5.3.4) 
t i0, i€ lh. 
而 且 存在 C>0 使 
MIPle = il- ulsa”. (5.3.5) 


rs 


其 中 
i 
à = nin| ps. :ar 20, é hje 
fw = fli) — (ig € Ij). 
是 1 上 的 初始 无 限 种 群 . 
证 明 ”由 定理 5.3.1 得 


limPi& = i} = lim ITO 


i 
lim < 于 
me MGUGYfG)Y"a, 

jE1 
ze =a 一 一 一 

M lim (fG)/fG))"a; 

jejte 
由 于 i€ 时 , lim (了 (j) /1(i))"=0 当 且 仅 当 j n, iE LM, 
lim fG)/f(G))" 7 oo, 当 上 且 仅 当 f(j)>/(i), 从 而 (5.3.4) 得 证 . 

下 面 证 明 (5.3.5), 由 于 

D IPIE = il- a 


| 
M ONOR 
BIYI Yal’ P» UGD", 
-i xl CA à; 
€ Sa + D SG) fes. Sa 
IER 1 j&t 
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1, D Uf FG)" 93 CFGO/ fG)"a; 
IER Ed, 
ZA GOG) fun) "a 
x a; 
SH, Ta + BUG fusa; Xa; 
JER Ed jn 


Xy Sman) "ai 
£d 


5 a; 
xa z 
A Da «S lae Yu 
jd i je 
` n 
P FG fiis"; 
A a) LAn ài si di 
x NS * 
iei, Da * UG fa, Da, CLA" Maj 
Kd MK JER En 
25A "a; 
EN ai Ya 
«7 SX à NIS 
£u 2,4, 2,aj RIM" oa) 
e f Eri 
g 
ESL 
xs. 
Ma 
E 


定理 5.3.3. EI 上 的 初始 无 限 种 群 有 分 布 
VN, i€ Is, 
“= {0 ien dala AN， 

则 


D IPIE = il- al = 2-2] ho fuf NI GG". 


i€1 jeh 
其 中 i 
| 1 EF 
a; = limPié, = ij 2 41h ; 
an Lo itis 
l = ļi:f(i) = max f(j)}. 
证 明 因为 
fe pm 
2o» dnb UG DAL 


于 是 


(5.3.6) 


(5.3.7) 


(5.3.8) 
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H pm 1 

NI er ee TI 

D IPIS, il -a;l apie il AIXE in] 


JE 


pm 1 
= 总 PE il - Inl 而 | 


2 MIX H 
jE 


21-MPl& i - MPl&- i 
D € 


-22-2|nl fr/ 31 GG. 


Kd 


推论 5.3.4 ”在 定理 5.3.3 的 假设 下 ,有 


` N 
à |Pl& = il - a; I«z(ri -ie. 
其 中 
à = minC fai fG):i € Io). 
证 明 由 定 埋 5.3.3 得 
DIP =i -al=2-2|1 fil BAO 


Ey 


-2-2|nl/ X GGY fas" 


-2-2|hl/ Onde M GGY fas") 


Eh 
22-2|n|/IGn[ Ql- ] n a7). 
推论 5.3.4 说 明了 收敛 速度 与 N 有 关 , N 越 小 收敛 速度 越 快 .但 是 当 i 
€ I, IAE 
= limP|&, =iļ=0. 
于 是 /了 的 最 大 值 若 落 在 m 之 外 ,通过 适应 值 选择 算法 ,不 能 得 到 全 局 最 优 值 . 
变异 是 一 个 重要 的 遗传 机 制 ,如 果 没 有 变异 ,遗传 过 程 经 常 收敛 到 局 部 极 
值 .在 没有 变异 的 情况 之 下 ,遗传 过 程 要 达到 最 大 值 依赖 于 初始 种 群 的 性 能 . 
下 面 我 们 在 不 考虑 选择 的 情况 之 下 研究 变异 的 规律 . 
定理 5.3.5 U 是 初始 无 限 种 群 , M 是 变异 算 子 ,/ 为 变异 概率 , 记 
名 = MẸ, & = M(MẸ) = Ma, c, & = M&.i, 
则 Yn 三 1 有 


Pl&£-il- Xa Ito. 5+ (8; j -0.5)(1-25)"], (5.3.9) 
证 明 由 于 个 体 各 分 量 的 变异 是 独立 的 ， 故 
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PIMG) = il- [| [e+ à; - 22] 
ni 


i 
= |[[0.5+ (3,, -0.5)(1-25)]. (5.3.10) 


现在 我 们 归纳 地 证 明 (5.3.9) 成 立 . 当 n=1 时 ,由 (5.3.10) 得 
Pi& = il- PIME = il 
= DPlé = jiPIMG)= il 


jei 


= Null [0.5 + (à; , -0.5)(1 - 25)]. 


jet ael 
于 是 对 于 n =1(5.3.9) 成 立 , 若 对 于 n (5.3.9) vr. Bl] 
Pl& 7 il2 3Pl& = jIPIMG) = il 


ra 


j 
=E Yalli [0.5 + (3, -0.5)(1 - 2,0") T] [0.5 
Pn 


JELEI d 


+ (45; -0.5)(1 - 24)]. 


= XY IT lo.5 + (ax -0.5)(1- 25)" ][0.5 
fei eti 


+ (Ox -0.5)(1-25)] 


- Yall X )[0.5+ (x - 0.5)(1 - 25)" J[0.5 


+ (Ok -0.50 - 299]. 
ig 2), = 2 [0.5* (3, -0.5)(1-25)" 10.5 (3 -0.5)(1-24)], 
对 于 固定 的 i, fü, 分 两 种 情形 讨论 


(0) i, =k, nf 
乙 ,= (È + 3)00.5 + Cay, -0.5)(1 - 2#)" ](0.5 


+ Gu 0.50 -2)] 
= [0. s«ia -2u)"][0.5 + 4a — 24)] 


+ [0.5— ia -2u)"](0.5 — ia -2u)] 


=4+ta -2p 
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= [0.5 + (à, - 0.5)(1 - 20)"*]. 
(2) 当 ik 时 
$1.2 (M + X 0.5 + G3, -0.5)(1 -2x)"][0.5 


i DES 


+ (ð, -0.5)(1 - 20)] 
" l-la-a,y" 
= [0.5 + (à - 0.5)(1 ~ 24)"*'], 
所 以 对 于 n *1,(5.3.9) vr. 
推论 5.3.6 ” 设 & 是 初始 无 限 种 群 ,变异 概率 kw<0.5, 则 


limPl = il = 三 
而 且 收 敛 是 单调 的 , 即 


X|Bi&a-i-np&ÀM 


证 明 由 定理 5.3.5 及 (1-2/p)<1, 得 


Pl& = il- tl- (5.3.11) 


" PETERE ER ^ ey | 
limPl = il = Yos - (3) -nr 
X|ria-7 4-1] 
Z Hl 
i , 
-XM|XPis = jl I le + da -2m1 - yir] 
i€l JE sb 
SN 1 全 
Mire =t- grr) ie a nr 
i 
«X Pte 7 ji - cn ME e+ i0 722] 
A 1 
«3 Pl& = ji - 1h 
pa i& 2 jl H | 


(5.3.11) 得 证 . 


定理 5.3.5 及 其 推论 说 明 不 管 初始 无 限 种 群 具有 什么 分 布 ,其 极限 分 布 
都 是 均匀 分 布 .也 就 是 说 ,变异 算 子 不 断 重 复 进行 ,可 以 达到 个 体 空 间 中 任何 
个 体 . 


下 面 考虑 杂交 算 子 C, 取 1 上 的 随机 元 ,对 于 给 定 的 母体 (j,k) 则 随机 
ME C(j,k) 的 分 布 为 


PICG,k) = il = PIGOU) DOUD) = il, icr. 
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例 5.3.7 PARK u 是 下 面 集合 上 的 均匀 分 布 : 
lo = 100…01),(00…11),…,(11…1)1， 
单 点 杂交 是 在 j 中 取 右 边 部 分 ,在 中 取 左 边 部 分 而 构成 新 的 后 代 . 
例 5.3.8 ”两 点 杂交 u 是 下 面 集合 上 的 均匀 分 布 
I; = 100-01), (00-710) , ++, (107-200), 
(00-11), 0-110), (111) }. 
两 点 杂交 u 是 在 中 间 部 分 采用 jj, 而 在 其 它 部 分 采用 .由 于 1 中 有 /4(1+ 
1)L 个 元 素 , 故 两 点 杂交 ”是 己 上 分 布 概率 为 2/LL(L+ 1) 均 匀 分 布 ， 
例 5.3.9 ”均匀 随机 杂交 u 是 按照 分 布 
Plu = ul = pi(l = p)", 
当 pj=0.5 时 
Plu = ul 217. 


表示 均匀 杂交 . 
例 5.3.10 ” 半 随机 杂交 ù 是 13 上 的 均匀 分 布 . 
[lue niuis t}, 1 为 偶数 ， 
h= I 


4 


CATIE L3 yiu HH], 1 为 奇数 ， 
这 类 杂交 取 每 个 双亲 的 一 半 基 因 杂 交 后 产生 后 代 . 


$5.4 遗传 算法 的 马 氏 链 模型 


考虑 优化 问题 (P):maxi fi) € I1. 
问题 (P) 的 全 局 最 优 解 集 
B'z—ji€I: /(i)= f^ 2&max(f(G):j € DI. 

给 定 概 率 空 间 ( 0 ,3, P). E 表示 期 望 算 子 ,文中 许多 关系 式 是 a. ; .成立 ,为 
简单 计 , 我 们 略 去 a.;. .对 于 种 群 z,n (xz) 三 |z 门 B* | 表示 种 群 x 中 包含 的 
最 优 解 个 数 (相同 个 体重 复 计算 ). 下面 给 出 抽象 的 选择 算 子 ,变异 算 子 和 杂交 
算 子 及 它们 的 特征 数 的 定义 . 

标准 遗传 算法 的 马尔 可 夫 链 模型 :标准 遗传 算法 的 过 程 为 

(1) 对 t=0 任意 给 出 初始 随机 种 群 X(0). 

(2) 用 母体 选择 算 子 S 在 X(z) 中 按 以 下 分 布 独立 地 选择 m 个 母体 : 


EOSO ODA), Gj) XQ). 
Pisa) = GD = 1 OY CA 53 o 
0 否则 . 


(3) 用 单 点 杂交 算 子 C 对 (2) 中 选 出 的 m 个 母体 进行 杂交 , 即 


$5.4 WEIER S ICREBUSM * 401. * 


[&5./1, ki HE - Ait (0- A)j, 
lo, 其 他 ， 
其 中 0< p.<1 是 杂交 概率 ,A 是 一 个 对 角 和 矩阵 , 它 的 前 ~ 个 元 素 为 1, 而 其 他 
的 元 素 为 零 ,r 称 为 单 点 杂交 的 杂交 点 . 

(4) 用 单 点 变异 算 子 M , 设 变 异 概率 为 p,, ,将 (3) 中 经 杂交 算 子 获得 的 每 
个 个 体 , 按 下 面 概率 分 布 变 成 新 的 个 体 ， 

PIM(G) = jl = PEPA - pa) ED, 

其 中 aC) i tjj 之 间 的 Hammin 路 离 . 

(5) 若 停止 准则 满足 , 则 停止 . 否则 置 := : + 1,988682). 

id G = MCS , 则 标准 遗传 算法 过 程 可 表 为 

X(t) = G(X(t -1)) = MCS(X(t -1)), t9 062, 

易 知 由 上 述 标准 遗传 算法 过 程 所 得 到 的 种 群 列 ! X(z),z= 0,1,…} 是 一 
个 齐 次 马 氏 链 . 并且 它 是 不 可 约 非 周期 的 .根据 遍历 性 定理 ,1 X(r),:=0,1， 
一 | 存在 极限 概率 分 布 .并 且 所 有 种 群 是 正常 返 .这 表明 标准 遗传 算法 不 能 保 
证 得 到 全 局 最 优 解 . 

下 面 我 们 进一步 研究 标准 遗传 算法 在 种 群 转移 过 程 中 遗传 因子 的 变化 规 


律 . 记 


PIC(i,j) = ki = 


有 (ze) = PIX4G D =alX) 


n 


rl. a-0,, 
其 中 
rc (Z122, Emn) E P". 
Ti = Gra.rost.r4) € I, i= ,sm 
称 Pj Gr a) KRE c 时, 后代 个 体 的 一 维 边际 分 布 , 令 
hj y= 


lj = lisry 20.0 iml, 


fi(z) = Df(z) = Nf ) 
E» 


fui(x) = UG) = DS., 


f(x) = Íre = = fo(zr) + flx). 
定理 5.4.1 ü&IXG). 1-0, 1,…1 为 采用 单 点 杂交 算 子 的 标准 遗传 算 
法 的 种 群 序列 .给 定 X(+)=z, 则 下 代 个 体 X;(z+1) 的 第 j 个 分 量 X; (z+1) 
服从 参数 为 P(x 008 0-1 分布 ,其 中 
Pi(z,1)= PIX;G +1)= 1|XG) = zl, 
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= fu) , [i Lu] " 


4 gy Cof) 
证 明 令 
Y = (Yie, Y) =C(S(z))， 
则 
PIX,G +1)= 1|X(1) = x| = PIM(Y,)= 1|X(1)= xi 
=PiY;= II XG) = ztPIM() = 1} 
+ PlY;=0|X() = ziPIM(0) = 01 
=PiY = A[XGO = xl (1 - pm) 
+ PiY; = 0| XC) = xl pn, 
P| Y; = 1|X(1)= zl 
-P|Y = C(S(z)); Y; =1} 
7M PIG) = Y,Y, = APIS(x) = Gr, nl. 
记 
Ai = lj X lijs 
A2 = lij X lo, 


A; = loj X hijs 
A4 = loj X loj» 
Fi mx m=A UAUA UA, id 
B,- $ P|C(r,,x,) = Y,Yj =1}P{S(x) = (2,2), 


(e EA, 
i = 1,2,3.4, 
于 是 
P|Y, = 1l XG) = zl= B, + B; + By + B4. 
(wu, v)€ A, IH, CCr, x)= Y Y; 0, Bt B7 0. 
(u, v)E A, BE, CC a) 5 Y Y, - 1, dk 
Bi= 2) PÍS(x) = Gal 


"cM 
a Safle) 
Ra FP ^ 
(uv) € AB HET uE Ij vE D, B 1,70, 7, =1, 238A j 
分 量 之 前 进行 才能 使 % = 1, 于 是 


B; = 


v dp Gnd Gs) 
wea, UG 
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Mu, v)€ A Bl, HF uE Dj, vE Ig, B xw 71,2, 70, FERIE Y; 
=1 ,必须 满足 下 列 两 种 情形 之 一 : 
(a) 杂交 在 j 分 量 之 后 进行 ,这 时 不 管 是 否 杂 交 均 有 Y; = 1, 于 是 


PlCG, n) = Y, Y; 211 5 DH. 
(b) 杂 交 在 j 分 量 之 前 进行 ,但 并 未 杂交 ,于 是 
PiC(z,,2,) 5 Y.Yj 1 = +a - p), 


从 而 
B= E (与 7-A)PlsCz) = (zz 
Š ` jpe Mx) f Cr.) 
dich GG» ^ 


综合 上 述 结果 得 
PlY,21lX(G) = xl - Bı + B24 Bs 


rs X a 
GG» Ta GG» 

_ GG? To Lula), 
G) f(z) fG) 

- du) 

(of) 


推论 5.4.2” 设 |X(1),t=0,1,…| 为 采用 均匀 杂交 算 子 的 标准 遗传 算 
法 的 种 群 马 氏 链 , 则 


P(z,1)= PlXj(t +1) 2 1|X(1)= z} 


Sule) fula) 
-HP raid 


证 明 用 定理 5.3.5 的 记号 ,我 们 有 
PIY; = 11X(z) = zl 
iy Fau) fz) | fu) f 
uea Flr) ust GG) 
a fGu)fGy) 
eS GG 六 
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BARE ”抽象 遗传 算法 及 其 收敛 性 的 
一 般 理论 


关于 遗传 算法 收敛 性 已 有 许多 工作 ,包括 使 用 模拟 退火 , 己 尔 可 夫 链 和 
Vose-Liepins 等 模型 .马尔 可 夫 链 方法 也 许 是 研究 遗传 算法 的 概率 行为 最 普 
电 , 最 自然 的 方法 ,但 大 多 数 已 有 的 马尔 可 夫 链 分 析 结 果 都 是 基于 人 遍 历 性 理论 
而 得 到 . 比如 ,Rudolpht' 证 明了 当 变异 概率 不 是 零 时 ,经 典 的 时 齐 遗 传 算法 
不 收敛 到 全 局 最 优 解 ,而 杰出 者 选择 遗传 算法 收银 到 全 局 最 优 解 Suzuki 516 
推广 了 这 些 结果 ,对 修改 的 杰出 者 选择 遗传 算法 Suzuki09 证 明了 当 变异 和 杂 
交 概 率 趋 于 零 且 选择 压 趋 于 无 穷 时 ,遗传 算法 马尔 可 夫 链 的 平稳 分 布 集中 在 
一 致 全 局 最 优 解 种 群 上 . 最 近 RudolphL 避 综述 了 关于 演化 算法 的 极限 和 有 限 
时 间 行 为 的 结果 ,并 证 明了 父 代 种 群 参与 竞争 的 时 齐 遗 传 算法 以 概率 1 完全 
收敛 到 全 局 最 优 .不 带 杰 出 者 选择 策略 的 时 齐 经 典 遗 传 算法 不 收敛 到 全 局 最 
优 的 事实 推动 了 非 时 齐 演化 算法 的 发 展 见 (Suzuki 的 [15,16], Rudolph 的 
[18], Davis fif [19,20] , Mahfoud and Gol 的 [21] ,Cerf 的 [22,23 ], Lozano et al 
的 [24] 和 He and Kang 的 [25] ). 

本 章 考虑 抽象 的 非 时 齐 遗传 算法 . 8 6.1 给 出 抽象 的 选择 ,变异 和 杂交 算 
子 的 定义 ,并 定义 了 能 反映 它们 的 优化 能 力 的 特征 数 . 8 6.2 在 这 些 特征 数 满 
足 适当 的 条 件 下 ,证 明了 算法 的 随机 种 群 列 以 概率 1 完全 收敛 到 全 局 最 优 解 
集 等 一 些 结果 .把 这 些 一 般 性 结果 应 用 于 具体 的 遗传 算法 (比如 经 典 遗 传 算 
法 ) ,不 利用 非 时 齐 马尔 可 夫 链 的 遍历 性 理论 ,简单 地 证 明了 上 述 收 和 敛 结果; 当 
变异 概率 趋 于 零 时 ,还 证 明了 相应 算法 的 随机 种 群 列 依 概 率 收敛 到 一 致 全 局 
最 优 解 集 .这 些 收敛 结果 都 依赖 于 种 群 规模 和 杂交 算 子 .最 后 对 父 代 种 群 参 与 
竞争 和 带 杰 出 者 选择 策略 的 遗传 算法 ,证 明了 相应 的 收敛 结果 不 依赖 种 群 规 
模 和 杂交 算 子 . 


$6.1 演化 算 子 及 其 特征 数 


考虑 优化 问题 (P):maxi fG) ELR 1 称 为 个 体 空间 ,f 为 1 上 正 实 
值 函 数 , 称 为 适应 函数 .种群 空间 为 
P = lz:zr= (ro…z)mceT bpzxk«m|, 


正 整 数 m 称 为 种 群 规模 ,问题 (P) 的 全 局 最 优 解 集 


$6.1 演化 算 子 及 其 特征 数 | * 105 + 


B'zeii€lfG)-f' -mx(fG): € D}. 
给 定 概率 空间 (2 7, P) ,小写 字母 x y a ,0 等 表示 确定 性 种 群 ,大 写字 母 
X,Y 等 表示 随机 种 群 ,R( 1") 是 取 值 于 4” 的 随机 种 群 全 体 .对 于 种 群 x ， 
n(x) 三 |z 站 B" | 表示 种 群 x 中 包含 的 最 优 解 个 数 (相同 个 体重 复 计算 ). 下 
面 给 出 抽象 的 选择 ,变异 和 杂交 算 子 及 它们 的 特征 数 的 定义 . 


6.1.1 选择 算 子 


选择 算 子 是 一 个 随机 映射 S: 1" 一 R( I”) 满足 
A) Vx€ I" n(r)24, Pl n(S(x))211 0. 
(2) Vx € U,PIS(Cr)€ Ul 51. 
其 中 UC I" J& -SOREu SG, ii) i ET 全体, 假设 (1) 表 明 选 择 算 
子 从 含有 最 优 个 体 的 种 群 中 以 正 概率 获得 含有 最 优 个 体 的 种 群 . 令 
m(x) = maxle:P(n(S(x)) = k) 20,0 kml, Vx € I", 
mo = minj m(x): Yx € I",n(x) 1, 
a = minl P(1(S(x)) = m(x)):Vx € Ij. 
m Cc) e PEWE-T- AERE e 可 能 选 到 的 最 优 个 体 数 最 大 值 , mo 是 选择 算 子 有 
能 力 选 到 的 最 优 个 体 数 最 大 值 的 最 大 下 界 , 是 获得 最 多 最 优 个 体 的 可 能 性 
的 最 大 下 界 ,可 把 它 称 为 选择 算 子 的 择优 率 ; mo 和 都 称 为 选择 算 子 的 特征 
数 ,下 面 计算 一 些 具体 选择 算 子 的 特征 数 . 
例 6.1.1 比例 选择 :VY x€ 41",S(z)=(Y1,…,Y,,) 由 m 次 独立 重复 
实验 产生 ,随机 个 体 Y, 的 概率 分 布 为 
PlY,=i|= ZOSO MG), i€ x4 m. 
这 里 xz(i) 是 种 群 x 中 含 个 体 ; 的 个 数 . 令 
p = maxl f(/ fG): FCG) € fG) i jE I « 1. 
在 一 些 文献 中 o 被 称 为 选择 压 . 易 知 当 n(x) S1 Bt, m(x) = m-mo-7m,H 
有 


P(n(S(z))= m(z)) = [5] 
Lr 
ef n(z) ih 
ma(z)+ M) ff 
ie ann" 
2 - (m - Del", 


从 而 
= 过 [1-(m - 0p]". 
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将 上 面 结果 应 用 于 带 严格 单调 上 升 尺 度 函数 o: RR’ 的 比例 选择 ,得 到 相 
应 特征 数 为 
a, Z [1-7 Cm -1)oo]”， 
其 中 
pa = maxlo( f())/oC£G):fG) € FG), ij ETL. 
(a) ER o (u)  u' Su € R* WE 
alt) Z [1-7 (n - 0g ]". 
由 于 p<1, 所 以 


Ël- at) < æ. 


(b) 若 取 o (u) = TO RIVERE A NEI CSA- Like 
GA) ,这 时 


-A/T) 
Po, , 


其 中 ,T(z) 是 退火 温度 . 且 
A = minl fC) - fG):fG) > fü), ij € IL» 0, 
a(t) Z [1- (m - 1e 270m, 
TR TG) 7 A Ant, A 7 A WA 


e ATO = ,-A78 


È ;U 7 a()] < o. 


例 6.1.2 et 选择 (参见 [26]); :选择 规则 是 随机 个 体 Y, ,1<; 
冬 刀 ,以 概率 1 选择 种 群 z 中 与 r; 相 邻 的 * 个 个 体 中 的 最 佳 个 体 . 易 知 当 
n(x)=1 f}, m(z)=s;4 n(z)  k,2- km 时 , m(r)Zmin(m,s +k), 
从 而 有 

mo = s. 
因为 选择 是 非 随机 的 ,所 以 
Vxr€ I", n(S(x)) = m(x)-a = 1. 

例 6.1.3 线性 Ranking 选择 : YzE I", S(z) S (Y, ,-, Yn) H m 次 

独立 实验 产生 , 设 x 中 个 体 依 适应 值 排序 为 
Sa) D- S Naa), 

则 选择 规则 是 使 

Pi = zl = p* (m - r)q, Ixkzm, 1<r<m, 
这 里 p,q 是 满足 

2'3m(m -1)q * mp — 1, 
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的 可 调 参数 . 当 (x) B, m(x) 7 m 从 而 
mo m, 


aZz(p*t(m-1q)", 


若 取 
qt) =2m «1:09, ee>0 
或 
q(t) 22m +ë, 0<0<1, 
则 有 
Xa- al))< o. 
例 6.1.4 HERH Ranking 选择 (参见 例 3) :选择 规则 是 使 
PlY,2zl-4q0-4) ISk, Ixrszm, 
易 得 
mo-m, acq", 


若 取 qG)21-0,0€0x13& q(0)) 21-7 77 0*9 60, MH 
Ma-a0)« o. 
1 


tz 


6.1.2. ERAF 


变异 算 子 是 一 个 随机 映射 M: "一 R(1" R 
Vx € I",PIn(M(x)) 21] 5 0. 

此 假设 表明 变异 算 子 将 任意 群 种 以 正 概率 变 为 含有 最 优 个 体 的 群 种 . 对 变异 
算 子 定义 如 下 一 列 特征 数 . 

B, = minlpln(G(z)) 21:Vz € I"^,n(x) >k}, 1Lk Lm 

例 6.1.5 经典 变异 算 子 M: 这 时 个 体 空间 I= 10,11 ^, V € I", BL 
种 群 M(z) 的 概率 分 布 为 

PiM(z) = y} = fta 一 p) Am) giis »€ m, 


"i d(zx, y) fh a, 与 办 之 间 的 Hammin 距离 , p 是 变异 概率 ,其 特征 
Bo= minl PIn(M(z)) Z 1l: Vx € m,n(z)>0| = OC»), 


B. 1- maxi pin(M(z)) = 01: Vx € IP",n(x) >k} 
siris pA IKES m: 


61.3 ”杂交 算 子 
杂交 算 子 是 一 个 随机 映射 C: In— ROI") RUE. 
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(1) Vx€ I",n(z) 2 m,Pln(C(x)) * ml 20. 

(2) V € U,PiC(x)-x| 71. 

假设 (1) 表 明 杂 交 算 子 作 用 于 最 优 群 种 (由 最 优 个 体 组 成 的 群 种 ) 时 ,以 正 
概率 产生 最 优 群 种 . 其 特征 数 定义 为 

y= minl PIn(C(z)) = ml:n(z) = ml, 

y 可 以 视 为 杂交 算 子 的 保 优 率 . 

例 6.1.6 单 点 杂交 (参见 [30]): 由 母体 (a ,2) 杂 交 产 生 随 机 个 体 Cla, 
5), 它 的 概率 分 布 为 
: 1-g+kg/1， 若 e = a， 
PiC(a,b)= el = "P Feta, 
其 中 &=A(a,b,e) 是 杂交 (a,0) 可 生成 e 的 基因 位 置 数 . 独立 地 重复 杂交 实 
验 m 次 得 到 随机 种 群 C(z) ,因为 当 m(z)= m 时， 

Pln(C(z)) = miz Plc(x) C x0 Z (0 — q + kq71)" 
za-[u-nDq/Ap". 


e€ I, 


所 以 
yz-[G-0q/)". 
考虑 杂交 算 子 列 | C,} 时 , 取 杂 交 概 率 = 170 9,60, WA 
Sa - y(t)) < o. 


m 
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本 节 讨论 遗传 算法 的 各 种 类 型 的 收敛 性 ,首先 我 们 给 出 随机 种 群 列 收敛 
的 定义 和 为 获得 收敛 性 定理 所 需 的 两 个 引 理 . 设 AC 是 种 群 空间 的 子 集 . 

定义 6.2.1 ” 称 随机 种 群 列 | X(z)1 以 概率 1 完全 (相应 地 依 概率 ) 收 敛 
到 A ,如 果 


Pilim[X(D) € AJl = 1 (相应 地 limP|X(:) € Al = 1). 
注 6.2.2 UR LX Cr) BOR 1 收敛 到 种 群 A ,那么 对 于 几乎 所 有 w 存 


在 正 整数 r(w) 使 得 当 1 宇 r(w) 时 ,X(:)(w)EA, 即 |X(4)| 完 全 收 化 到 种 群 
集 A( 参 见 [17]). 


引 理 6.2.3 ”车 区 间 [0,1] 中 的 数列 a,b, 和 vw ,t=1,2,…, 满 足 
(a) Da < oo， 


(b) 35 - e, 
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(c) D bmi < œ, 
fi 
(d) wa, * w-,,t91,2,7 
则 limw-0. 
若 rc 一 co 时 ,yw 不 趋 于 0, 则 习 se>0 和 上 升 的 正 整数 列 


证 明 ( 反 证 法 ) 
使 w >e, 根 据 条件 (a) 取 no 足够 大 使 


Dalt) < e2， 


In, k-71,2,7-l 


n 


AMEREEM sz no, FEER k B nus ni,1, 由 条 件 (d) 有 


Mac Mo -» 1) = vn, a4 TET 
E 
M 
w»ec- Sal: a S uds 
iem E 
3 b < Dbm < o 
ordi a 
Db< oo 
与 条 件 (b) 矛 盾 , 故 limw =0. 
…, 满 足 


引 理 6.2.4 ” 若 区 间 [0,1] 中 的 数列 o ,6 和 v, ,t=1,2， 


(a) 2 (1 -4) = c, 
| 

(b) lima,/ (1 -b)-0, 

(c) wa, * by, 4, t21,2,7 


则 limy, =0 
证 明 由 (b) 对 任意 s>0, 存 在 正 整数 N >N 时 ,a,<(1- bi)e. 
由 (c) 和 (a) 得 
t21,2,-, 


v € (0 - b)e + by, 
< (To)Gw 7-8. ro nz, 
AN 


w-esb(wa-s)« 
Tmo - o <Tallla) - e - 0. 
Lar 


0< limy, < $ 
et 


— limy, = =0. 
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本 章 考虑 的 遗传 算法 是 由 抽象 的 选择 算 子 列 | S,| ,变异 算 子 列 | M,| 和 杂 

交 算 子 列 | G1 交替 迭代 生成 的 随机 种 群 列 . 任意 给 定 初始 种 群 X(0)€ 

R(P), 令 
X(t) = SMC(X(t -1)), z= 1,2,…, 

A(G) — Iz € I'in(z) Z2kl, k-0,0,,m. 
U'ziz-(,i,.i)€I,tcB'|, 

A (n Yfül [分 别称 为 最 优 种 群集 (OPS) 和 一 臻 最 优 群 集 (UOPS). 


6.2.1 


本 段 研究 随机 种 群 列 |X(z)} 以 概率 1 完全 收敛 到 OPS A (mo). 
定理 6.2.5. VE S, M, 和 C, 分 别 是 选择 ,变异 和 杂交 算 子 ,它们 的 特征 


SOR imoral), LA GO) ,k=0,mol 和 (1),t=1,2,…, 在 下 面条 件 中 
(a) DA- e(R, G)Y()) € 9. 
[n 


(b) 3A) = oe. 
t=1 
Ca’) lim[17 a(t) Bn (2)7(2)]/Bo(z)=0. 
(A) 如 果 (a) 和 (b) 成 立 ,那么 
Pllim[X(1) € Ampl = 1. 


特别 当 mo= m 时 ， 
Pllim[X(#) € A(m)]} =1. 


(B) 如 果 (a’) 和 (b) 成 立 ,那么 
limPIX(1) € A(mo)! =1. 
证 明 (一 ) 设 选择 算 子 S, ERAF M 和 杂交 算 子 C 的 特征 数 分 别 为 
Imo, al, 1f k -0, moURL ,其 中 mm, 4 
( =d % n(x) 2 mo, 
STU Malz) < mo. 
因为 当 n(y)>1 f m(y)>mo 所 以 对 任意 x€ I" 
Elg( SMC(z))]» Pln(SMC(x))> mol 
> ,Pln(s(»)) = m(y)IPIMC(z) = yl 
Z aPÍn(MC(x)) 2 1]. (6.2.1) 
HAYE, 
Pln(MC(x)) 21| = MPis(M(z)) 2 IPICG) = zb ZO f. 
(6.2.2) 
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而 当 n(z)2 mof, 
Pln(MC(z)) 三 HE Mj Pin( MOD) ZAIPICG) = yl 


nO) m, 
ZB, PIn(CG)) > mol 
ZB, Pln(C(z)) = mi > f. Y. (6.2.3) 
所 以 对 任意 X€ RG"),8(6.2.1)(6.2.2),(6.2.3)48 
E[g(SMC(X))]= 3] E[g(SMC(z))]PIX = z} 


En] 


ol X + M ]Pis(MC(G2) 2 UPIX = zl 


jEmo-l m, 
> afgP 10  nCX) x mo- M 

+ a, YPl mo  n(X) < ml 
7 af (1 - E[g(X)]) + af, YE g CX ]. (6.2.4) 


(二 ) 在 (4) 中 分 别 用 S, M, C, X(t- DE S,M,C, X 得 
E[g(X(z))] 
a(t)Bo(t)(1 - ElgC XC -1))]) + aCOB, G)YG)E[gOXG - 0)]. 


(6.2.5) 
us=E[g(X(t))],v,=1- wu. 由 (5) 推 得 
u È alt) Bolt) v- + «GB, (YC wa, (6.2.6) 


(A) 如 果 条 件 (a) 和 (6) 成 立 ,由 (6) 推 得 
uy 7 uat [1 = aGB (t) YCE) Juri Z alt) Bolt) vis 


1+ Xu -aG) B, (2) Y(t) Ju > Dap 1. (6.2.7) 
利用 (6.2.7) 和 定理 6.2.5 的 条 件 (a) 可 得 


Y (OB < c, 


mi 
DD < oo. (6.2.8) 


由 (6.2.6), 还 可 推 得 
ve €1-aG)R, G)yG) + a COLE, G2) YG) = Polt) Ivers 


v Sl- eG) G)YG) + [1 Bolt) Juris (6.2.9) 
w 1 - alt) Pm G)YG) + wa. (6.2.10) 
在 引 理 6.2.3 JB 1— aCe) Bn, (2) COR Bo(z) 分 别 代替 a, 和 65, 那么 定理 
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6.2.5 的 条 件 (a) 与 (b),(6.2.8) 和 (6.2.10) 式 分 别 对 应 于 引 理 6.2. 3 的 条 件 
(a),(b),(c) 和 (d) ,因而 
limPIn(X(G)) > mol = linE[g(XCO)] = limu, = 1 - limy = 1. 
(三 ) 令 
o = U - alB Ry], 
往 证 随机 过 程 1g(X(t)) + e. t9 1,2, 是非 负 有 界 下 鞭 . 非 负 有 界 是 显然 
的 ,只 证 下 蒜 性 . 即 下 面 不 等 式 成 立 
E[g(XG) + o/X(),XQ),,XG -1))]>g(X(t - 0) + Gi 
由 于 |X(7),t=1,2,…| 是 马 氏 链 , 只 须 证 明 Y x € I", 
E[g(X(1)) + co/X(1 -1)= x12 glx) + ol 

=g(z) -1+a(t)B, G)YG). (6.2.11) 
WKE, Sin Cr) € mo 时 ,g(x)=0, 显 然 (6.2.11) 成 立 . 当 n (n) mold, 
g(x)=1, 由 (6.2.1) 和 (6.2.3) 推 得 

E[g(SMC(z))] > ab, Y> 
分 别 取 S, M,C 为 S,,M,,C, 得 
Elg(SMC(z))] > alt)Pn (1)7(7), 
ak (6.2. 11) Sr Hi F BC DIGE REA Le (X (1) + la. s COR, PCI Le, Lt 
SIÓR Lg CX (0) la.s. 收 化. 已 证 明 |g(X(7))| 依 概率 收敛 到 1, 故 它 a.s. 收 
敛 到 1. 因 |g(X(:))| 的 值 域 10,11 是 孤立 集 ,对 a.s.wE N, FUE rlw), M t 
之 r(w) 时 ,g(X(t)(w))=1, 即 
Pllim[ X(t) € AGn9)]I = Pllim[n(XG)) > mo]l = 1. 

(B) Amd (a ) 和 (b) 成 立 , 在 引 理 6.2.4 中 用 1- a C B, GO y GO RU - 
Bo(z) 分 别 代替 a, 和 5, ,那么 定理 6.2.5 的 (a ) 与 (b) 和 (8) 式 分 别 对 应 引 理 
6.2.4 的 (b),(a) 和 (c), 从 而 

limPIX(G) € A(mo)} = f. 
应 用 定理 6.2.5 于 经 典 遗 传 算法 得 下 列 推论 . 

推论 6.2.6 SARIF S, 带 特征 数 | m,a(1)| ,变异 算 子 M, 带 变 异 

BOR p, ,杂交 算 子 C, 带 杂交 概率 g, ,t=1,2,…, 在 下 面条 件 中 


@ M - at - gp) a) < o. 


(5) Dp = ~. 
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(a) lim[1 - a(£)(1 7 pA- g) ]/ pr 70. 
CA). 如 果 (a) 和 (b) 成 立 ,那么 
Pilim[XC)E A(m)]i = t. 
(B) MRa ) 和 (b) 成 立 ,那么 
limPIXG) € A(m)} = 1. 
注 6.2.7  Tournameni ff (f6. 1. 2 ) BU EAE mo = s < m ,由 定理 
6.2.5 只 能 推 得 


Pllim[X(1) € A(s)]! = t, 
即 以 概率 1 保证 经 有 限 次 迭代 后 X(1) 中 至 少 含有 s 个 最 优 个 体 ,而 不 能 保证 
IXCOTEUBOR 1 或 依 概 率 收敛 到 OPS A(n). 


6.2.2 


本 段 证 明 |X(z)| 依 概率 收敛 到 UOPS U* . 先 说 明 对 于 比例 选择 算 子 
5S, 存 在 仅 依赖 于 种 群 规模 m 的 常数 c(m)>0, 使 
0 = minl p S(z) € U]:x € Ul Z c(m). (6.2.12) 
WKE, V € I" ,如 果 个 体 i€x =li Er fG) mxlf(G):€xll AA 
PIS(x) € U> PISCr) = uG)! 
- [eor Maro] Qm = em), 


02 c(m) » 0. 
还 有 其 它 一 些 选 择 算 子 也 满足 (6.2.12). 
定理 6.2.8 HARAT S, 满足 (6.2. 12) ,变异 算 子 M, 带 变 异 概率 
DRAT C, 是 任意 的 ,z= 1,2,…. 如 果 
lim p, = 0， 
那么 
limPIX() € U| - 1 
证 明 设 选择 算 子 S 满足 (6.2. 12) ,变异 算 子 M 带 变异 概率 ,杂交 算 
子 C 是 任意 的 .对 任意 种 群 XE ROI) ,我 们 来 估计 概率 PISMC(OO € UI. 
KAYE, 
(a) 4 rE U, H S(x)€ U MC) = x f 
PiSMC(x) € Ul = PISM(x) € U! 
=(X +X )IPIS(y) € UIPIM(¢) = yt] 


„U £U 


> PIM(x) € Ul + 4PIM(x) é UI 
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-0*(1-0)PIM(x)€ UI 
Z06*-0PIMG) = xl 
0+(1-0)(1- p) z 8. (6.2.13) 
(b) ré UmBff 
P|SMC(x) € Ul= (M + M)PISG) € UIPIMC(z) = y} 


EU yé U 
Z PIMC(x) € U| + 4PIMC(x) € U| z 8. 
(6.2.14) 
对 任意 XE RO") ,18(6.2.13)80(6.2. 14) f 
PISMC(X) € UI 
-(3 + M)UPISMCGO) € UIPIX = zl] 
t 


EU k 
>[0 + 1-8)0 - "PIX € U} + PIX ¢ U} 
>80 + (1-8) - p)" PIX € U}. (6.2.15) 
在 (6.2.15) 中 用 S, ,M,C,,X(z 一 1) 分 别 代 圭 S,M,C,X 得 
PIX) € UI z26*(1-0)1- p)" PIX(: -1)€ Ul. 
(6.2.16) 
$ w-1- PIXG)€UI.i(6.2.16)f8 
ws Q-8)1-(- p)”)+ (1-0) - by, 
€1-(- p)" + (107 0). 
如 果 p.90, 17700 ,根据 引 理 6.2.4 48 
PIX) € Ul21-w-1, t--o, 
定理 6.2.9. 设 选择 算 子 S, 带 特征 数 w Fla CO ,变异 算 子 M, 带 变异 
BOR p, ,杂交 算 子 C, 带 杂交 概率 g, ,z = 1,2,…. 如 果 


() Xa - eG) pL - 4) € e 
a 
(a^) im Le CO - P 7 a 
A p 
(b È pk = co, 
per] 
(o) 存在 仅 依赖 于 种 群 规模 m 的 常数 c(m)>0 使 
min{p[S,(z) € U]:z € Ul > c(m). Vi 二 1, 
那么 
limPi[X() € U*]i = limPi U [XG) = u(G)]I = 1. 
"mw i€B* 
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证 明 由 推论 6.2.6 和 定理 6.2.8 易 证 . 
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前 面 关于 经 典 遗传 算法 的 收敛 结果 与 杂交 概率 和 种 群 规模 有 关 ( 要 求 m 
> 工 ); 本 段 证 明 父 代 种 群 参 与 竞争 和 杰出 者 选择 遗传 算法 的 收敛 性 与 杂交 概 
率 和 种 群 规模 无 关 . 
(一 ) 所 谓 父 代 种 群 参与 竞争 意 指 演化 程序 如 下 : 
xc) 2 Yo) za) € zo) xc) S xa +1). 
这 里 选择 算 子 S, 是 [2 一 R( 1") 的 映射 .对 任意 初始 种 群 X() € ROT), 
X(t) = S(X(:-)DUMG(XG-1), 1 = 152,7. 
定理 6.3.1 BARRAT S, 带 特 征 数 mo M alt) ERAF M, 带 变异 
概率 p, ,杂交 算 子 C, 是 任意 的 ,t=1,2,… ,在 下 面 四 个 条 件 中 ， 


(à) DI- a(] < o. 
(a^) lim(1 -a )/ pt =0. 


(b) Dt = o. 
(c) limp, -0. 
(A) 如 果 (a) 和 (b) 成 立 ,那么 
Pllim[X(z) € A(mo))l = 1. 
(B) 如 果 (a ) 和 (b) 成 立 ,那么 
limPIXG) € A(mo)| = 1. 
(C) 如 果 (a) 或 (a),(b) 和 (c) 成 立 ,那么 
limPIX(1) € U`} =1. 
证 明 设 选择 算 子 S 带 特征 数 mo A a, ESAF M 带 变 异 概率 ,杂交 
JT C 是 任意 的 .对 任意 XER(1"), 有 
PIn(S(X U MC(X))) > mo} 
D Pin(S(w)) 2 mGw)! PIX U MC(X) = w 


n(w)21 


>aP|n(X U MC(X)) 211 


V 


Ego © Pin(z U MC(x)) 2IIPIX = z} 


4=0 n(x)=k 
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=a >) Pln(MC(z)) Z MPIX = x! 


nn 


+a M Pin(r U MC(z)>1iPIX = zl 


Eren 
Zaf Pin(X) = 0! +aP|n(X)>1} 
SaPIO S n(X) S my — M t aPln(CX) Z mo}. (6.3.1) 
在 (6.2.18) 中 用 S,.M,.C,. XG - DAIRE S,M,C,X 得 
Pin(CXG)) > mol 
Zea (0) BC PIO S nCOXG — 1) € mo - 1M 
+a(t)Pin(X - D) > mal, 
其 中 BG) 7 OER 6.1.5) BOUfERCUD]RE In e ub BR AE XI 6.2.5 一 样 地 
证 明定 理 6.3. 1 的 (A) 和 (B) ,并 且 利用 定理 6.2.8 得 到 定理 6.3. 1 的 (C). 
推论 6.3.2 设 S,:P"-R(I) 是 比例 选择 算 子 带 尺 度 函 数 
alu) = "TD, uE R', ti = 12 
T(4+) 是 退火 温度 ,变异 算 子 M, 带 变异 概率 ,三 p>0,C, 是 任意 杂交 算 子 . 
如 果 
T(1)-0, 1—%, 
那么 
limPI X) € A(n»)]I = 1. 

(二 ) 杰 出 者 选择 遗传 算法 概述 如 下 : 

(1) 置 :=0, 任 意 给 定 初始 种 群 X(0) € RCIP). 

(2) 从 当前 种 群 中 独立 地 选取 m — 1 对 母体 ,进行 杂交 得 到 m - 1 个 中 间 
个 体 . 
(3) 独 立地 对 m 一 1 个 中 间 个 体 进行 变异 得 到 下 一 代 的 m — 1 个 随机 个 
W xis Xx aO). 

(4) 在 种 群 X C — 1) 中 选取 一 个 局 部 最 佳 个 体 作为 下 代 种 群 的 第 m 个 个 
体 X。(z). 

(5) 停 止 , 若 某 个 停止 准则 被 满足 :否则 , 置 ;= : + 1 ,并 转 到 第 2 步 . 

如 果 我 们 把 第 (2) 步 的 选择 和 杂交 复合 , 视 为 杂交 算 子 C, I" R CI 71) ,把 
第 (3) 步 由 J" 一 R(1”"') 的 变异 算 子 记 为 M, ,把 第 (4) 步 由 IP RCD B3 
择 算 子 记 为 S? , 则 第 e 代 随 机 种 群 可 表示 为 . 

X(t) = MG(XG -1)) U S; (Xu - D)), + = 1,2,…. 


定理 6.3.3 ” 若 杰 出 者 选择 遗传 算法 中 的 变异 概率 | p, 满足 
SX a 
De: ee 


za 
m 
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则 
limPI[XG) € A(Q)II = 1. 
证 明 因为 
Pln(XG)) = 0l 
=Pin(MC(X(t -1)) 20, n(S7 (X(t - 00) - 0l 
=Pln(MC(X(t -1)) 20, (X(t 70) 7 0l 
= J) PIn(MGG)) = 00IPIXQ - 1) = zl 
ne 
= X) >Pln(M(y)) = OPIC (xz) = yIPIX(G -1) = x 
Sra s 
< max IPIn(M, C) = 0H PIn(CXG - 0) = 0i 
<(1 - G)DPln(X(G -1)) = 0}, 
A 
令 


u, = Pln(X(1)) = 0l, 
由 上 面 不 等 式 得 


u S (7 BaD a m JIA - p(k)). 
ia 


因为 


Bi) = OGD, Net = o, 
zi 
故 有 uw 0, 17700 ,进而 
limPI[X(2) € AQ)JI = limPIn( XC) >1} = 1. 

E634 ERAT M, 带 变 异 概率 户 ,杂交 算 子 C, 带 杂 交 概率 
qot71,2,. 4 

a) Xa =y 

(2) lim pr/ 1 =q)” =0 
CFA q,=q<1 时 ,条 件 (2) 成 为 p0, 1909) HU 

limPI[X(O € U*]s 1. 
ait 

下 面 用 U 表示 规模 是 六 - 1 的 一 致 种 群集 ,ui(i) = Ciis). 

|z" | 是 zx" 中 的 个 体 数 . 


证 明 对 任意 种 群 xC I" ,任意 个 体 i€ ,根据 在 第 2 步 杂 交 算 子 的 定 
义 ,有 
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~ (M cq [| sei 
PIG) = wD m[- s] Sema 0)", 
PIX()) € UI 
-PIMCG - 1) U S7 (XG 71) € Ul 
-(M-*M)PIMGG)US/G) € UIPIXG - D = zl 
rzEU EU 
-XPIMG) € U'IP(XG - 1) = x) 


€U 


+ DPIMC(z)U S? (x) € UIPIX(1 -1)= x 
z U 


>(1 - p)”PLPIX(t -1)€ Ul 
+ BD) D PIMGG) = u(i) PIS} (x) = iIPIXG - 1) = z} 
RUjer' 
(1- p)™ VPpIX(t -1)€E ul 
1 


bc 


SpQPIXG 71) 2 xl. 


+ M X PIMC, (<) = ww 人 Ci) 


IUe 
且 当 iEz*"Cz 时 
PIMC, (x) = uG)0 7 PIM, (y) = w (DIPIC(z) = yl 
> PM, (w (i)) = w G)U PICG) = u'(i)| 
> (1 - p) Dic(m)(l - qu), 
PIX) € U} 
>(1 - p) ”-DLP| X(t -1) € U} 


+ 2; 310 - pm Dm) - qg) 


Iu. Eag 


PIX( -1) = z 


Z2 - p)"-"!p|x(; - 1) € Ul 
* c(m)(1 - q)""!(1- p)” -DLP X(t -1) ¢ UJ. 
4 w2 PIXG)EUI ER okay 
WS - (pO D+ pO) DL efm) qi)n7t]u, 
S On - DLp, * [1 - c(m)(1 - q)” yi. 
由 引 理 6.2.3 得 
limPIX(/) € Ul 2 1- limy, = 1. 
由 定理 6.3.3 18 
limPiX() € U*|1 = limPiX() € AQ),XG) € Ul - 1. 
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解 组 合 优化 问题 通常 觅 个 可 行 的 方法 .一 种 方法 是 用 优化 算法 ,在 尽 可 
大 的 运行 时 间 中 ,产生 一 个 全 局 最 优 解 ; 另 一 种 方法 是 用 近似 算法 ,在 可 接受 
运行 时 间 内 产生 近似 解 .近似 算法 又 可 分 为 两 类 :改编 为 特殊 问题 的 算法 和 可 
应 用 到 大 规模 组 合 优化 问题 的 “ 般 算法 .在 第 一 类 中 为 了 避免 方法 内 在 的 缺 
陷 ( 对 于 相关 问题 的 有 限 应 用 ) ,希望 能 有 一 般 近似 算法 对 于 大 规模 组 合 优化 
问题 能 获得 近似 优化 解 .模拟 退火 算法 就 是 这 样 一 种 算法 , 它 是 解 组 合 优化 问 
题 的 通用 优化 方法 ,是 以 随机 方法 为 基础 . 

本 章 对 模拟 退火 算法 的 数学 理论 作 一 个 初步 介绍 .在 $7.1 介绍 模拟 退 
火 算 法 的 马尔 可 夫 链 数学 模型 . $ 7.2 和 $7.3 分 别 讨论 齐 次 算法 和 非 齐 次 算 
法 的 渐 近 收敛 性 . 


$7.1. 模拟 退火 算法 的 数学 模型 


7.1.1 算法 介绍 


模拟 退火 算法 的 原始 形式 是 以 固体 模拟 退火 和 解 大 规模 组 合 优化 问题 之 
间 的 类 似 性 作为 基础 的 . 

退火 过 程 中 ,在 每 个 温度 值 了 ,固体 达到 热 均衡 时 ,固体 处 于 能 量 o 状态 
的 概率 ,由 Boltzman 分 布 刻画 , 即 


PIE = e| = zinel- EH 

其 中 Z(T) 是 规范 化 因子 , Kp 是 Boltzman 常数 , 当 温 度 T 趋 于 零 时 ,只 有 处 
于 能 量 为 最 小 值 的 状态 有 非 零 的 发 生 概率 .然而 ,如 果 冷 却 过 程 太 快 ,也 就 是 
说 不 是 对 于 每 个 温度 值 固体 到 达 了 热平衡 ,缺陷 可 能 会 被 “冻结 "进入 固定 , 达 
到 非 均 匀 的 亚 稳 态 , 而 不 是 低能 量 的 晶 态 . 

对 于 恒定 的 温度 全, 为 了 模拟 固体 的 热平衡 演化 ,Metropolis 等 人 提出 了 
一 个 Monto-Carlo 方法 , 按 下 述 方式 产生 固体 的 状态 序列 : 先 给 定 以 粒子 相对 
位 置 表征 的 初始 状态 作为 固体 的 当前 状态 ,然后 使 随机 选取 的 某 个 粒子 的 位 
置 产生 一 个 小 的 随机 扰动 ,如 果 扰 动 后 的 状态 与 受 扰动 的 状态 之 间 的 能 量 差 
AE 是 负 的 , 即 扰动 结果 固体 进入 低能 量 状态 ,过 程 就 以 新 的 状态 继续 进行 . 


如 果 AE>>0, 那 么 接受 扰动 后 的 状态 的 概率 由 exp | - 伶 守 | 给 出 .按照 这 个 接 
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受 准则 ,系统 最 终 演化 到 热平衡 . 即 经 过 大 量 的 扰动 之 后 ,固体 状态 的 概率 分 
布 趋 于 Boltzman 分 布 .这 个 Monte-Carol 方法 在 统计 力学 中 被 称 为 Metropolis 
算法 . 

在 组 合 优化 问题 中 ,给 定 一 对 (R,C),R J& 4 I" £513" (Configuration) JE 
f. CH R-R 是 价值 函数 , 求 “ 结 构 "io, 使 CCo) = minCG). 

Metropolis 算法 也 可 用 来 产生 组 合 优化 问题 的 “结构 "序列 ,在 这 种 情形 ， 
“结构 "扮演 固体 所 处 状态 的 角色 ,而 价值 函数 C 和 控制 参数 c 分 别 起 了 能 量 
和 温度 的 作用 .现在 模拟 退火 算法 能 看 作为 在 一 列 下 降 的 控制 参数 值 赋值 的 
Metropolis 算法 列 . 它 能 被 描述 如 下 :开始 ,控制 参数 被 给 定 在 一 个 高 值 ,随后 
产生 组 合 优化 问题 的 一 列 * 结 构 ”. 如 同 在 迁 代 改 进 算法 中 一 样 , 一 个 生成 机 制 
被 定义 ,使 得 给 定 一 个 “结构 ,通过 从 的 邻 域 随机 选取 一 个 元 素 而 得 到 另 
一 个 “结构 "j .后 者 相应 于 Metropolis 算 法 中 的 小 扰动 . 令 AC; = CG) - 
CC) ,那么 “结构 "i 是 序列 中 下 一 个 “结构 "的 概率 由 min|1,exp| -AC; /cll 
给 出 , 即 当 ACj<<0, 概 率 为 1; 当 AC; >0 时 ,概率 为 exp| - AC; /cl. 因 此 有 

-个 非 零 的 概率 保持 比 当前 “结构 "有 更 高 价 的 一 个 “结构 ”. 这 个 过 程 一 直 进 
行 到 均衡 被 达到 , 即 “结构 "的 概率 分 布 副 近 Boltzman 分 布 ,此 时 它 由 下 式 给 


出 


PIA” = il = gle) = gigel- EP 
其 中 Q(c) 是 规范 化 常数 ,依赖 于 控制 参数 <. 
控制 参数 逐步 降低 ,在 每 一 步 按 上 述 方式 产生 一 列 "结构 ", 使 系统 趋 于 平 
衡 ; 对 于 某 个 小 的 控制 参数 ,终止 算法 .最 后 “冻结 "的 "结构 " 取 作 为 所 考虑 
问题 的 解 . 


7.1.2 ”算法 的 数学 模型 


给 定 一 邻 域 结构 ,模拟 退火 算法 接连 地 试图 将 当前 “结构 "变换 到 它 的 邻 
域 中 的 一 个 “结构 ”, 这 个 机 制 在 数学 上 能 用 马尔 可 夫 链 很 好 地 描述 : 一 序列 斌 
验 ,每 个 试验 的 结果 仅 依赖 前 一 个 试验 的 结果 .对 于 模拟 退火 ,试验 对 应 着 变 
换 , 很 明显 变换 的 结果 仅 依赖 于 前 一 个 变换 的 结果 . 

马 氏 链 可 通过 一 组 条 件 概 率 | P;(k -1,k)| 来 刻 化 :给 定 第 一 1 次 试验 
结果 是 iL P;(k -1,k) 是 第 次 试验 结果 为 ; 的 概率 . 

对 于 模拟 退火 ,条 件 概率 P; (4 -1,k) 表 示 第 次 变换 是 从 “结构 "i 到 
“结构 "j 的 概率 .车 用 X(k) 表 示 第 次 变换 后 得 到 的 “结构 ", 则 有 

Pi(k—1,k)= PIX(k) = j/X(k -1) = il, 


FEA HC TRI 


$7.2 齐 次 算法 的 渐 近 收敛 性 fau 


aj(k) = P(X(&) = i) = Ma(k -1)P;(k -1.k), k5 2,7 


因为 转移 概率 依赖 于 控制 参数 c, 如 果 保持 不 变 ,相应 的 马 氏 链 是 齐 次 的 ， 
其 转移 矩阵 已 = P(c) 能 被 定义 如 下 : 
G;(c)A;Cc), j*i, 


Po] (1.1.1) 


" 
1- MGG)AG, j=i, 


其 中 | 有 | 表示 集 R 中 元 素 个 数 . 

每 个 转移 概率 定义 为 下 面 两 个 条 件 概率 的 乘积 :由 “结构 ”i 生成 “结构 ”j 
的 生成 概率 Gy(c ) 和 接受 "结构 "7 的 接受 概率 Ai(c). 相应 的 矩阵 G(c) 和 
A(c) 分 别称 为 生成 矩阵 和 接受 矩阵 ， 

前 面 已 经 指出 ,在 算法 执行 过 程 中 ,控制 参数 c 要 减 小 , 按 c 的 减 小 方式 ， 
算法 可 以 分 为 两 种 形式 : 

1. 齐 次 算法 :算法 由 一 列 齐 次 马 氏 链 描述 ,每 个 马 氏 链 是 在 固定 的 值 生 
JR c 在 马 氏 链 序列 中 是 减少 的 . 

2. 非 齐 次 算法 :算法 由 单独 一 个 非 齐 次 马 氏 链 描述 ,c 的 值 在 马 氏 链 的 变 
换 序列 中 减少 . 

用 Ro 表示 全 局 最 小 “结构 " 集 .我 们 将 在 下 面 节 说 明 : 

对 于 齐 次 算法 如 果 

(1) 每 个 马 氏 链 是 无 限 长 ， 

(2) EE A(c) 和 G(c ) 满 足 某 些 条 件 (c, 是 第 ! 个 马 氏 链 的 控制 参数 
值 )， 

(3) lim cc=0， 
则 有 

lim PIX(G) € Rl = 1. 

对 于 非 齐 次 算法 如 果 

(D A(c) 和 G(ce) 满 足 某 些 条 件 ， 

(2) lim ce=0， 

(3) ACo OE AEECES — EREE | ct l CIE RE IS EC OL logi ] Dik, 
则 有 

lim PIX(G) € Ryl = t. 


$7.2. JF Arii c OE 


齐 次 算法 收敛 性 证 明 的 实质 是 在 一 定 条 件 下 , 齐 次 马 氏 链 的 平稳 分 布 存 
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在 ,平稳 分 布 9= (9 ) 由 下 式 给 出 

di limPi XC) -i/X(0-2jl, Vj, (7.2.1) 
由 (7.2.1) 可 得 

qi = lim PIX(k) = il = lim a(0)7P*, (1.2.2) 
这 里 a(0) 是 初始 分 布 ,a;(0) = P(X(0) = i),iE R, 这 样 平稳 分 布 是 经 无 穷 
次 变换 后 “结构 "的 概率 分 布 . 显然 ,对 于 模拟 退火 , 因 转移 概率 矩阵 P 依赖 于 
控制 参数 c , 故 g 也 依赖 于 c,g = g(c). 现 在 收敛 性 证 明基 于 下 面 论 断 : 首 先 
推导 生成 矩阵 G(c) 和 接受 矩阵 A(c ) 的 条 件 , 确 保平 稳 分 布 9(c) 存 在 ;接着 
这 些 条 件 被 改善 ,使 得 对 于 下 降 的 ,4(c ) 收 敛 到 全 局 最 优 “结构 " 集 上 的 均匀 
分 布 , 即 


limq(c) = x, (7.2.3) 
尽 | 维 向 量 x 是 
[IR *, i€R 
PELLE " (1.2.4) 
== le. 其 他 . 
结合 (7.2.2) 和 (7.2.3) 得 
limlim P(X(k) € Ray) = 1. (7.2.5) 


7.2.4 ”平稳 分 布 的 存在 性 


定理 ( 见 定理 1.3.26) 若 有 限 齐 次 马 氏 链 是 不 可 约 、 非 周期 的 , 则 平稳 
分 布 q 存在 , 且 向 量 q 由 下 面 方程 惟一 决定 
Vi, q; 250, Sql, (7.2.6) 


Vi, q= 2api. (7.2.7) 
由 (7.2.7) 看 出 q 是 矩阵 已 的 特征 值 为 1 的 左 特 征 向 量 . 
在 模拟 退火 情形 ,矩阵 P 由 (7.1.1) 给 出 .因为 我 们 假设 Yi,j, Yc>0， 
Ai(c)>0, 故 为 使 已 不 可 约 ,只 须 假 定 由 G(c) 导 出 的 马 氏 链 是 不 可 约 的 , 即 
YiyER, 存 在 "1, 存 在 lo,0 € RI i, lp= jE 


Giya (€) > 0， Ohm. (7.2.8) 
又 因为 为 了 使 一 个 不 可 约 马 氏 链 是 无 周期 的 ,只 须 下 面条 件 满足 : 
Yc>0, JER, P4(c) >0， (7.2.9) 
故 只 要 假设 :Yc>0, 3i.,j.ER 使 
Ai(c) «1, Gi (c) » 0. (7.2.10) 


事实 上 ,由 (7.2.10) 和 Vi,j,Aj<<1 可 得 


$7.2 齐 次 算法 的 渐 近 收 务必 … 123 


A;c)G,i C) 


RETE 


= M AQGQGG) + AJ le)Gij C) 


1a a 
T 
< M GG) «M, (7.2.1) 
故 
四 
Pi =1- 2 AqG)GaG) > 0. 
£ pde C : 
(7.2.9) 成 立 . 
注 在 算法 的 早期 形式 中 ,接受 概率 被 定义 为 
Ai(c) = minll,expl- CG) - CG)l/cl, (7.2.12) 


综 上 所 述 我 们 知道 如 果 和 矩阵 A(c) 和 GCCOA BUR (7.2.9) (7.2.8), 
那么 以 (7.1.1) 给 出 的 条 件 概率 为 转移 矩阵 的 齐 次 马 氏 链 具有 平稳 分 布 ， 


7.2.2 平稳 分 布 的 收敛 性 


现在 对 矩阵 A(c) 和 G(c) 补 加 条 件 ,确保 平稳 分 布 收敛 到 由 (7.2.4) 给 
出 的 均匀 分 布 .最 一 般 的 最 少 限制 的 条 件 是 由 Romeo 和 Sangiovanni-Vin- 
centelli3] 给 出 ,他们 基于 下 面 事实 : 
Vi€R, gi(c) 有 如 下 表示 
-y = ACC), c) 
gi(c) ECO’ 


j 


(7.2.13) 


其 中 y(x,c) 是 二 元 函数 满足 : 
1.Vi€ER,c>0,y(C(c),c)>0, (7.2.14) 
2. 全 局 平衡 性 , 即 V j€ R. 


iR 
3 (GG). OGG)A;GC) 


= 


R? 
-4(CG). X G&G)A;G), (7.2.15) 


现在 来 验证 ,由 (7.2.13) 给 出 的 g(c ) 的 确 是 惟一 的 平稳 分 布 ;显然 v(c ) 满 足 
(7.2.6) ,只 须 验 证 (7.2.7) 也 满足 ,事实 上 ,根据 (6.2.15)， 


Si yt GR) g 
cc 
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十 (CGD«c) (1- Mase)A«c) 


MeGG).o fai 


= q+ ITAA ; Gs) As) 


-Cl o NI GA 
Seco). o 20 O0(O 


mdi; 
文献 [38] 给 出 确保 limq(c)= x 的 条 件 是 
.|0, "r»0, 
1 lig gliro) = | o, "M (7.2.16) 
doc) su pue 
2. girs c= 90 rc). (7.2.17) 
3. Vc»0,  4(0,c)- I. (7.2.18) 


由 (7.2.14) 一 (7.2.18) 给 出 的 条 件 , 对 于 确定 马 氏 链 的 平稳 分 布 是 充分 条 件 ， 
但 不 是 必要 的 ;同时 ,利用 (7.2.14) 一 (7.2.18) 很 难 建立 平稳 分 布 的 明确 形 
式 ,因此 许多 学 者 把 注意 力 集中 在 二 元 函数 %(r,c ) 的 特殊 选择 上 ,以便 得 到 
4(c) 的 更 明确 形式 ,但 以 对 矩阵 G(c) 和 A(c) 更 多 限制 为 代价 . 如 下 面 定理 
定理 7.2.1 (Folklore) 假设 对 任意 ioE Rop M 
Aii(c) = ACC) - Cc), IER, (7.2.19) 
Co 表示 价值 函数 C 的 最 小 值 ,又 设 生 成 矩阵 G 不 依赖 于 c; 只 要 矩阵 Ac) 
和 G 满足 下 面条 件 
(al) Vi,j€ R,G; 2 Gj, (7.2.20) 
(a2) V i,j,&€ R, 
CC) < CG) €C(k)9Aa4(c) = Ag(c)A4(c), (7.2.21) 


G3) Vi,j€ R,CG)ZCG)A;() 71. (7.2.22) 
(a4) V i,j€ Rc »0,CCG)) € CG)90€ ACC) 1, (7.2.23) 
那么 平稳 分 布 g(c) 由 下 式 给 出 
Aii(c) 
Vi€ R, gi(c)= wes (7.2.24) 
JER 


证 明 首先 注意 ,车 记 N = MAL C), 则 有 
jER 
Xale) Pile) 


$7.2 齐 次 算法 的 渐 近 收敛 性 1235- 


= X lAGOGA; 


jei CO eu) * 


+ D lo AQGGA;G + qile) Pyle) 


P2 
ji coco) N 


= X dAQOG D LAQG)OG,*aGPG 
JACEE) JACCO 
-qG) DY G+ D gy)G;+g(c)Pi(c)g(e)P;(e) 
pri CO cu) pri CO)» CG) 
-qG) 2 GA(O- X GA) 
=al) -ald M 6G- 3X LAGOGA(C 
-q()-qG) > co- M (OG, (7.2.25) 
1H (7.2.24) 81(7.2.25)f8 
Yi € R, EBa(c)P5) = qi). (7.2.26) 


另外 ,由 (7.2.24) 给 定 的 q CREE CT. 2.6 JE SES. 
ik (7.2.20) — (7.2.23) f & (7.2.15) Cf (C CD) c) = (Cus 
Aiu(c)) ,但 着 不 真 . 
事实 上 ,(7.2.15) 的 左边 等 于 
>Y(C(D),c)Gi(c)Ai(c) 


= NGC Gi G)A,G)A;). (7.2.27) 
O 车 C(i)<CG),(7.2.27) 式 右边 等 于 
Dy Core) Gilc)Ai(e) 
-4(0G),0 DGi(e) 
74(CG).0) DGi(e) Azle). 


G) 车 CU)<C(Gi),(7.2.27) 式 右边 等 于 
El Coase) Gile) A; Azle) Ayl) 


74(CG),)0 XG;lc)A;le). 


故 (7.2.15) 成 立 . 
另外 (7.2.20) 一 (7.2.23) 隐 含 假设 接受 概率 仅 依赖 于 “结构 "的 价值 ,并 
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不 依赖 于 “结构 "本 身 .所 以 A; ;(c) 不 依赖 于 io 的 特定 选取 ,因为 


V io E€ Ry, Clio) = Cop- (7.2.28) 
此 外 ,为 了 确保 ime(c) = x ,下 面条 件 是 充分 的 . 
(a5) Vi,j€ R.CG) € CG)-*limA;c) 20, (7.2.29) 


IN (7.2.22) (7.2.29) fi flimq Cc) = m. 
在 早期 算法 的 公式 中 ,A(c) 和 G 分 别 由 (7.2.12) 和 下 式 给 出 
G,-4R^ Hi€R. (7.2.30) 
i0, 其 他 ， 

其 中 R, 是 “结构 "i 的 邻 域 ,并 且 R= | Ri;| ,Yi€ 分 .在 这 种 情形 ,条 件 (a1) 一 

(a5) 被 满足 ,所 以 与 A(c) 和 G 关联 的 马 氏 链 是 不 可 约 、 非 周期 的 ,其 平稳 分 

布 由 下 式 给 出 

_expl- (CU) - Ca) /el 

ule) = Moi (C(i)- Ca ct 


io 为 保证 定理 7.2.1 的 条 件 被 满足 ,条 件 (al ) ~(a5) 是 充分 的 ,但 不 是 
必要 的 . 例如 , 取 接受 矩阵 A Ce) H 

A&G) 7 (1 expc- €GI- =cGD)) ， (7.2.32) 

它 不 满足 条 件 (a2) 和 (a3) ,但 它 能 引导 到 由 (7.2.31) 给 出 的 平稳 分 布 ,这 点 可 


通过 将 (7.2.31) 和 (7.2.32) 分 别 给 出 的 q C) RI A(c) 代 入 (7.2.7) 式 直接 验 
证 该 式 成 立 . 


(7.2.31) 


$7.3. 非 齐 次 算法 的 渐 近 收敛 性 


前 一 节 说 明了 在 矩阵 A(c) 和 G(c) 满 足 一 定 的 条 件 下 ,如 果 对 每 个 控制 
参数 c(1=0,1,…) 相 应 马 氏 链 是 无 限 长 ,并 且 ci~>0,/ 一 oo; 那么 模拟 退火 算 
法 概率 1 收敛 到 全 局 极 小 , 即 有 

lim lim PIX(k) = il = lim q;(c) = n A Pide 
(1.3.1) 

本 节 讨 论 (7.3. 1) 左 边 的 极限 沿 (< ,) 平 面 中 的 一 条 线路 进行 , 即 当 c 取 
cy 时 ,算法 的 收敛 性 ;这 时 一 个 非 齐 次 马 氏 链 被 考查 ,其 转移 概率 定义 为 
[Gs AG. Visi, 


Pj - d.) m S 
j lt - E Calal), j 


人 = 


(7.3.2) 


$7.3. AETHERE THECA | 0ame 


今后 我 们 总 假定 控制 参数 数列 |c | 是 下 降 列 , 而 且 
lim c, = 0. (7.3.3) 
我 们 需要 非 齐 次 马 氏 链 的 一 些 结果 . 
定义 7.3.1 一 个 非 齐 次 马 氏 链 称 为 是 弱 遍 历 (ergodic) 的 ,如 果 Y m> 
1,i,j, LEN: 
lim(Pi(m,k) 7 Pi(m,k)) = 0. (7.3.4) 
定义 7.3.2 ”一 个 非 齐 次 马 氏 链 称 为 是 强 遍 历 的 ,如 果 存 在 多 上 一 概率 
分 布 ,使 得 YmE1l,Vi JE 
limPj(m E) = nj. (7.3.5) 
易 知 , 若 (7.3.5) 成 立 , 则 有 
limPIX(k) = jl = m. (7.3.6) 
对 于 齐 次 马 氏 链 , 弱 遍历 与 强 遍 历 两 个 概念 等 价 . 
下 面 两 个 定理 分 别提 供 判 断 非 齐 次 马 氏 链 是 弱 遍 历 和 强 遍 历 的 条 件 . 
定理 7.3.3 09. 一 个 非 齐 次 马 氏 链 是 弱 遍 历 的 当 且 仅 当 存在 严格 增 的 
正 整数 列 |&, ,1 =0,1,2,…| 使 得 


Xa ri (PO Ej) = oo， (7.3.7) 
其 中 ri(P) 是 矩阵 已 的 遍历 系数 , 即 
n(P)-21- min P min( P, P). (7.3.8) 


定理 7.3.4 (0 一 个 非 齐 次 马 氏 链 是 强 遍 的 . SR A9 38 D AG, T E 
对 所 有 ,存在 向 量 x(), 它 是 矩阵 POR 一 1,*) 的 特征 值 为 1 的 特征 向 量 ， 
D 1x(k)|= 1, 具 有 


六 六 mo - n + | o. (7.3.9) 
EM 
进一步 ,如 果 z= lima (2) ,那么 x 是 定义 7.3.2 中 的 概率 分 布 , 即 
lim Pi(m,k) = x. (7.3.10) 


在 8$7.2 关 于 矩阵 ACc)RI G(c) 的 假设 下 ,对 每 个 k 宇 0, 存 在 POL 1, 
不 ) 的 特征 向 量 gq(ci)( 是 齐 次 马 氏 链 的 平稳 分 布 , 它 的 转移 概率 由 (7.3.2) 给 
定 ). 进 一 步 ,在 7.2.2 节 的 补充 假设 下 ,车 limcx = 0, 则 有 jimg(c) = x. 这 里 
1R1 维 向 量 x 是 Ro 上 均匀 分 布 ( 见 7.2.4). 现 在 利用 定理 7.3.4( 取 x(k) = 
g(x)), 为 了 证 明 强 遍 历 性 ,只 须 说 明 下 面 两 条 满足 

1. 4I BERE SIGR 

2.4 (a) , Z0, ME CT.3.9). 
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利用 (7.2.4) 和 (7.3.6) 我 们 有 


limPIX(k) € Ro} = 1. (7.3.11) 
对 于 原始 形式 的 模拟 退火 ,g( ci ) 由 下 式 给 出 
as EL (CG)- C407) — (7.3.12 


M expl- (CG) - C071" 
Geman 4$ A41? HEBI T (7.3. 12) £A tl fi) q(cx) 满 足 (7.3.9) 他 们 还 利用 定理 
7.3.3 推导 了 为 确保 弱 遍 历 性 ,序列 |c ,k=0,1,2,…| 所 满足 的 一 些 充分 性 
条 件 . 
Geman 等 人 [首次 获得 这 样 一 种 条 件 . 他 们 说 明 如 果 存 在 ko 宇 2, 对 任 
X S, 
(7.3.13) 
其 中 
ACmx = maxlC(G) : i € Rl - minlC(i) : i € RI. 
那么 对 于 某 个 序列 lc, 上 =0,1,2,…1(7.3.7) 满 足 , 从 而 弱 遍 历 性 获得 ， 
一 个 类 似 的 但 更 严厉 的 界 由 Anily 等 人 [43) 按 下 列 方式 得 出 . 
设 ”是 一 个 整数 ,使 得 存在 一 个 全 局 最 小 “结构 ", 它 能 够 从 其 他 任何 “ 结 
构 " 在 不 多 于 n 步 转移 中 被 达到 (因为 由 G 诱导 的 马 氏 链 是 不 可 约 的 ,这 样 的 
n 存在 , 且 显然 n<|1R|). 进 一 步 , 令 
A = maxiCG) - C(i) : i € R,j € RCG) > CG), 
(7.3.14) 
A(c) = minlAj(c) : i € R,j € RII. (7.3.15) 


Anily 等 人 证 明了 对 于 一 般 的 接受 和 生成 矩阵 (满足 8$7.2 的 条 件 ) ,收敛 性 被 
得 到 ,如 果 


2 (A(cm))" = o. (7.3.16) 


把 这 个 结果 应 用 于 由 (7.2. 12) 给 出 的 接受 矩阵 这 一 特殊 情况 ,得 如 下 结论 ;如 
果 


Vk 二 2， as (7.3.17) 
那么 对 于 整数 序列 = in ,i=1,2,…(7.3.7) 满 足 ,实际 上 ,只 要 假设 
Vi, Ca SAET (7.3.18) 


就 够 了 .显然 


87.3. 非 齐 次 算法 的 渐 近 收 分 性 Dame 


n^ € ÎR] + AC. (7.3.19) 
这 表明 由 Anily 等 人 给 出 的 界 比 由 Geman 等 人 给 出 的 界 更 严厉 . 
最 严厉 的 界 ,由 Mitra 等 人 [名 得 到 , 令 
Ra = li ER: VIE R,CG) Cl), (7.3.20) 
是 局 部 极 大 “结构 " 集 ,并 令 
r= en maxd(i,j), (7.3.21) 


其 中 dli jE i 转移 到 j 所 需要 的 转移 次 数 最 小 值 . r 是 这 样 一 个 整数 使 
得 至 少 存在 一 个 非 局 部 极 大 的 “结构 ”, 从 任何 其 他 “结构 "经 过 不 多 于 r 次 的 
转移 能 够 到 达 它 , 即 (7.3.21) 中 的 极 小 值 在 该 “结构 "达到 ,所 以 有 rn. Mi- 
tra 等 人 证 明了 ,如 果 


rA 
Y k22, c > jogk’ (7.3.22) 
那么 对 于 数列 &= ir ,i=1,2,…,(7.3.7) 成 立 .事实 上 ,只 下 式 满足 就 够 了 . 
1 rå 
Vi, Cir > ige(ir) (7.3.23) 


至 此 ,我 们 列 出 了 算法 收敛 到 全 局 极 小 “结构 " 集 的 一 些 充分 条 件 . 
注 1 Gelfand 和 Mitterl4 讨 论 了 收敛 到 任意 “结构 " 集 工 的 充分 条 件 . 
注 2  HajekU5 和 Gidastt 讨 论 了 算法 收敛 的 一 些 充分 必要 条 件 . 


第 八 章 “ 主 成 分 分 析 神 经 网 络 算法 


主 成 分 分 析 (Principal Component Analysis, PCA) 是 一 种 经 典 的 统计 技 
术 , 用 来 分 析 多 变量 统计 观察 的 协 方差 结构 . 通过 PCA 多 变量 可 通过 少数 几 
个 分 量 表示 ,所 以 PCA 可 看 成 是 一 种 特征 抽取 技术 ,也 可 看 成 是 一 种 数据 压 
HIER. PCA 与 估计 理论 中 的 最 小 方差 技术 ,时 间 序 列 分 析 中 的 Karhunen 
Loeve(KL) 变 换 以 及 数值 分 析 中 的 奇异 值 分 解密 切 相关 ,这 些 有 关 的 方法 在 
信号 处 理 、 图 像 编码 和 分 析 的 应 用 中 非常 重要 . 

近年 来 ,人 们 利用 神经 网 络 技术 求解 主 成 分 显示 出 极 大 的 优越 性 . 自 
Oja "1985 年 提出 的 独立 单元 算法 用 于 计算 第 一 主 成 分 后 ,许多 用 于 求解 
PCA 的 神经 网 络 借 型 和 相应 的 算法 问世 .总 的 讲 ,所 提出 的 方法 分 为 两 大 类 : 
一 类 是 无 导师 学 习 的 单 层 前 向 网 ; 另 一 类 是 有 导师 多 层 感 知 神经 网 ,这 些 方法 
的 最 大 优点 是 具有 自 适应 性 ,易于 硬件 化 实现 ,属于 智能 化 方法 . 

本 章 主要 目的 是 介绍 其 中 一 些 简单 .通用 的 算法 ,利用 随机 盟 近 理论 来 讨 
论 这 些 算法 的 收敛 性 . 


$8.1. 主 成 分 分 析 


我 们 先 叙述 一 些 主 成 分 分 析 要 用 到 的 线性 代数 学 中 关于 矩阵 谱 分 解 的 一 
定理 8.1.1 ( 谱 定理 ) 每 个 对 称 矩阵 A C R"*" 有 谱 因 子 分 解 ,而 且 是 正 
EHH FITERE A —diag | A An 1 , 即 


A-XAX! - MaAxxt, 
1 


其 中 Ai, An 是 矩阵 A 的 特征 值 , X = [Xi…X, ] 是 相应 的 正 交 特 征 向 量 ， 
XT 是 XX 的 转 置 . 
定义 8.1.2 (DERE A € R"*" 称 为 按 列 ( 行 ) 随 机 的 ,如 果 A 的 每 个 元 


素 420,1 in MY jm ili FL Da = 1<j< DICT: D a; = 
E m 


1l,1<i< n) ;矩阵 A 称 为 是 双 随 机 的 ,如 果 它 既是 行 随机 的 ,又 是 列 随机 的 . 


(2) 称 矩阵 AER”, mAn 是 严格 行 ( 列 ) 随 机 的 ,如 果 存 在 矩阵 已 使 
M= [^ annon M= [A1B]) 是 双 随机 的 . 
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(3) 称 矩阵 SE R"“” ,入 是 行 选择 矩阵 ,如 果 在 每 行 恰 有 一 个 元 素 等 
于 1, 且 在 每 列 至 多 有 一 个 元 素 等 于 1, 而 其 余 元 素 均 为 零 ;类 似 地 可 以 定义 列 
选择 矩阵 . 

易 知 矩阵 A 左 乘 一 个 行 选择 矩阵 S, HER B, = SA, B, 的 行 是 A 的 行 
的 子 集 ,但 没有 A 中 行 的 重复 ,也 不 必 保 留 它们 在 A 中 排列 顺序 ;类 似 地 右 
乘 一 个 列 选择 矩阵 S, 得 B, = AS., 它 的 列 是 A 的 不 重复 的 子 集 . 

一 个 交换 矩阵 是 每 行 和 每 列 都 恰 有 一 个 元 素 是 1 ,其余 元 素 均 是 零 的 矩 
We. 显然 每 个 交换 矩阵 是 双 随 机 的 . 

定理 8.1.3 (Birkhoff) RE A 是 双 随机 的 充分 必要 条 件 是 A 能 表 为 某 
些 交 换 矩 阵 Py urn Pw 的 凸 组 合 , 即 存在 正 实数 a, an 使 al + + ay = 


1, 且 有 A = Sap. 
推论 8.1.4 ERE ME R"“" 是 严格 行 ( 列 ) 随 机 的 充分 必要 条 件 是 它 能 
表 为 某 些 行 ( 列 ) 选 择 矩 阵 Sii 7 Sy 的 凸 组 合 , 即 存在 正 实数 a, an 使 a1 


…+av=1 且 有 M = as. 


隐 含 在 PCA 中 的 思想 最 早出 于 Pearson 在 1901 年 提出 的 所 谓 线性 回归 . 
1933 年 Hollelling 提出 了 PCA 技术 ,并 把 它 用 于 分 析 多 个 随机 变量 之 间 的 相 
关 结 构 . 

考虑 随机 向 量 z = (xz ，,…,z,)7 ,期 望 Eizx|=0, 协 方差 矩阵 R, = 
ElzzTIE R"*". 在 PCA 中 ,特性 向 量 y 是 数据 的 一 个 正 交 线性 变换 

y= Wr, 
其 中 W 的 行 向 量 形成 子 空间 4 的 一 个 正 交 基 , 即 WWT=1, 且 y= 
span( W). x 在 YX 上 的 投影 为 


z= W'Wr. 
PCA 是 寻找 极 小 的 平均 平方 误差 
Je= Ellx-zl?I = Eftir- 22x - x)7]I 
= tr(R,) - tr(WR-WT). (8.1.1) 


若 将 (8.1.1) 中 右边 最 后 一 项 记 为 
=ta(WR-WT) = Ely) = ELS y] 
各 
= tr(WTWR,WTW) = Elu(zz?)! 


= = EIH, (8.1.2) 
因而 PCA 可 等 价 地 被 看 作 极 大 化 方差 或 极 小 化 平均 二 乘 方 技术 . 
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定理 8.1.5 (PCA) AZ mA, 是 R, 的 特征 值 ,其 相应 的 单位 
特征 向 量 为 e/ ,…,e, ;那么 在 约束 条 件 WW =] F, J. 的 极 小 化 解 (等 价 于 
Jo 的 极 大 化 解 ) 有 如 下 公式 
Wa = T[+ ep ten]. 


其 中 是 任意 正 交 方 阵 . 极 小 误差 和 极 大 方差 分 别 是 


minJ, = X àis 
m 

maxJ, = X. 
ie 


证 明 我 们 在 约束 条 件 WWT — 工 之 下 不 极 大 化 几 . 设 UA UT 是 R, 的 
谱 因 式 分 解 .其 中 U= [ere], A = diag[A hn]; 那 么 对 于 任意 正 交 和 矩阵 
TER” ”有 
J,7 tr( TWR,WT T) 
= u( TTWU A UTWTT) 
(W A WY) 


= Ln. 
UE 
其 中 W= (QW) = TTWU; 因 为 M 三 [ W3 EP GBÉBUEEE HEW 8.1.4 
知 严 格 行 随机 矩阵 集 以 是 凸 的 .因为 人 是 M 的 线性 函数 ;最 优 解 在 ,以 的 顶点 
达到 ,这 样 最 优 的 M 是 一 个 行 选择 矩阵 S, 从 而 W — Ss], 
W = TWUT = T[* ejay + eo], 


h= Ex. 
BAM IO) S Lui m) 9 m 时 ,J, 达 最 大 值 , 故 


Weak = T[+ ep“ + em]", 


maxJ, = $us 
in 
minj, = S Ai. 


imn 


最 大 特征 值 相应 的 单位 特征 向 量 称 为 主 特征 向 量 . 
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一 个 输入 序 列 的 主 成 分 能 通过 如 下 一 套 程序 逼近 :首先 是 收集 数据 并 计 
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算 R, 的 估计 量 (因为 R, 不 知道 ) ,此 后 是 这 个 估计 量 的 特征 值 分 解 和 信号 在 
具有 所 要 求 维 数 的 主 分 量子 空间 上 的 投影 . 

必须 指出 这 是 近似 PCA, 因为 R, 的 统计 期 望 被 样本 平均 代替 . 按 PCA 
的 精确 的 随机 框架 ,我 们 必须 对 带 无 限 长 的 数据 列 工作 ,在 这 种 情形 上 述 的 那 
套 程序 简直 是 不 可 用 ,因为 必须 等 待 全 部 数据 收集 到 后 才能 开始 计算 .在 这 种 
情形 我 们 使 用 随机 逼近 技术 ,在 极限 意义 下 产生 所 要 求 的 分 量 ; 其 想法 是 每 当 
一 个 新 的 输入 到 达 , 这 个 分 量 就 被 估计 一 次 , 随 着 时 间 的 推移 ,这 个 估计 越 来 “ 
越 好 ,直至 收敛 到 最 优 解 ; 这 技术 也 称 为 适应 性 技术 ,大 多 数 神经 网 络 算法 属 
于 这 类 技术 , 像 大 多 数 适 应 性 技术 一 样 ,神经 网 络 是 对 无 限 长 数据 列 工作 , 且 
只 要 求 比 上 述 程序 更 少 的 贮存 ;因为 各 数据 仅 当 它 们 到 达 时 才 被 使 用 ,而 且 不 
必 为 将 来 而 记忆 下 来 .这 样 的 方法 还 可 用 于 寻找 主 成 分 子 空 间 ,而 不 必 每 次 进 
行 特 征 值 分 解 . 

本 节 建 立 神经 网 络 与 PCA 间 的 联系 ,讨论 Hebbian 规则 及 其 相关 课题 ， 
诸如 Oja 模型 ,GHA 模型 . 


8.2.1 Hebbian 规则 


Wa, € R” 是 时 刻 k 刺激 或 抑制 一 个 神经 元 的 输入 向 量 , y, € R 是 该 神 
经 元 的 输出 ,k=1,2,…. 假 定 | zh} 是 广义 平稳 随机 列 , 期 望 向 量 Ex = y, É 
相关 矩阵 R, = E lar | ,= 1,2,… 是 正定 矩阵 .最 简单 形式 的 Hebbian 规 
则 的 实行 是 
Wesi = ow, Kur), k= 1,2,., (8.2.1) 
其 中 (B) 是 一 列 小 的 步 长 参数 ,如 果 zx 和 > 是 线性 相关 y= wuTz ,那么 Heb- 
bian 规则 (8.2.1) 变 成 


^A. = xz (8.2.2) 
根据 随机 通 近 理论 ,对 大 的 人 能 用 确定 性 的 常 微分 方程 
du = gau) (8.2.3) 


JE I.2.2) JP c = lk) = M8. 


我 们 来 详细 地 研究 (8.2.3) ,将 向 量 we(t ) 表 为 R, 的 单位 特征 向 量 正 交 
基 e1,…,e, 的 线性 组 合 


wlt) = X a;lt)e;, 


由 (8.2.3) 得 
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sdai(t) SX 
Mie = Mat)Re, 
fi dr d rr ii 
dat) ans Pe duni (8.2.4) 
dt 


解 为 
a;(1) = a; (0)eè'. 
因为 R, 是 正定 的 ,对 一 切 i, A; >0, 故 (8.2.4) 是 不 稳定 的 .但 因为 M; 是 
最 大 特征 值 ,在 所 有 的 系数 | ui} 中 ,ai 增长 最 快 ,单位 向 量 
u(t) =: wGM || w(t) ll 
IESUS me 三 Span(e2,… ,e,) REBATE. 


SF Neo? 
"iid 


“ew Emm 


PD Ca; 0)/2,(0)) ema 


1+ Ñ G(0)/2,(0)) e% 
i=2 


—0 (t-). 


同时 我 们 有 

ll w(G)l?- o, t— oo. 
因此 向 量 w(1) 趋 于 主 分 量子 空间 , 且 它 的 模 无 限 增长 .这 样 我 们 能 把 
(8.2.1) 描 述 为 对 神经 元 输入 信号 的 一 个 不 稳定 的 主 成 分 分 析 . 


8.2.2 ”对 于 单个 主 成 分 的 Oja 规则 


简单 的 Hebbian 规则 (8.1.1) 产 生 的 wi 接近 主 方向 e1, 同 时 它 的 模 无 限 
增 大 .为 了 使 wi 的 模 保持 不 变 ,可 采用 归 一 化 的 Hebbian 规则 ， 
Wisi = wh + Pelete), (8.2.5) 
win = wu l wesi ll- (8.2.6) 
因为 wi 被 归 一 化 ,可 避免 不 稳定 性 .但 强制 的 归 一 化 Hebbian 规则 不 如 由 
Oja 和 Karhunen 在 1982 年 提出 的 学 习 规则 好 .他 们 提出 一 个 线性 的 1 单元 网 
络 ( 参 见 图 8.2. 1) ,此 网 络 能 从 它 的 输入 向 量 随机 列 |z | ,x € R^ 适应 性 地 
抽取 恰好 第 一 个 主 成 分 ,输出 值 y 是 线性 相关 于 输入 zx. 
y= wir, w€ Rn. 
他 们 提出 的 适应 性 规则 ( 称 为 Oja 规则 ) 是 
Wesi = we + B yr, — yptus) (8.2.7) 
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x, 


Ne P ! 


图 8.2.1 Oja 的 简化 神经 模型 


这 是 归 一 的 Hebbian 规则 的 线性 化 版 本 ;Hebbian 部 分 是 输入 -输出 乘积 yir, 
而 归 一 化 部 分 相应 于 一 yiwe ,这 点 可 说 明 如 下 :由 (8.2.5) 和 (8.2.6) 得 
lua ll? = whaw = 1+ 2B + OC, 
wy = wal + 2/1 1 OC) 77, 
由 Taylor 展开 ,忽略 B? 项 得 
we = will- pok), 
将 (8.2.5) 的 右 式 代 人 上 式 得 
wi 7 wy + f yer, — ywr) — Bivizy 
~ we + Cer, — yrun) 
此 即 Oja 规则 . 
关于 (8.2.7) 收 敛 性 的 主要 定理 要 用 到 下 面 两 条 假设 
A.1 输入 序列 | zt 至 少 是 广义 平稳 随机 列 , 自 相关 矩阵 R, 的 特征 值 满 
JE 41>X2 之 …>4, >0, 即 最 大 特征 值 的 重 数 为 1; 相 应 的 单位 特征 向 量 记 为 
[TT 2 


A.2 步 长 参数 列 (B.) 满 足 : 
B00,k—>%; DA=. 


定理 8.2.1 WRA. 1MA. 2, H wle #0, IA kokt, 
(8.2.7) 中 的 wi 以 概率 1 趋 于 e, R- eu BI 
lim w, = eX - e1), a.s. 
证 明 RRIDO BHO IO AS, ULTRI CS. 2. DIAE 
定 的 微分 方程 
dD) Ri) - [uTG) Re) wlt), (8.2.8) 
将 wC)308 
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w(t) = ae, 


(8.2.8) 化 为 
şi E = Va) [Re - (3i GY Re )s]. 
deco) = [4 cela), i102, (8.2.9) 
其 中 


olt) = wG)TRw(1) = Daal). 
FE 
由 假设 ci(0) 天 0, 从 方程 (8.2.9) 得 
ailt) = aOb uo, — 120, 
故 可 定义 系数 比 a;(1)/a1(1),i=1,2,…,n 且 有 
d(2;. 1 ,de ada 
dta a, dt a? dt 


Tc -l oa] 


= [a-a], (8.2.10) 
H A; -A1 <0 Alim Ca; 1) 0, BA 


dled =2wT iE 2owIR(- llw?) (8.2.11) 


t 
这 样 对 任意 向 量 w 有 
07 wl? 1 Hel’) Sg, (8.2.12) 
lw? = 1 Held = o, (8.2.13) 
lwll? > 1> dæld <o, (8.2.14) 


RRT | w E 0f | wll =1 外 ,方程 (8.2.11) 没 有 其 它 的 不 动 点 ,由 假设 
ww(0) 云 0, 根据 (8.2.12) 一 (8.2.14) 得 
lim ll w) I? = 1, 
Co C1)791,a;(1)0, 17709, 172,3,, n. 
注 即使 R, 是 正 半 定 ,只 要 特征 值 41 >0 是 单 重 的 ,定理 仍 成 立 . 受 影 
响 的 惟 一 部 分 是 严格 的 不 等 式 (8.2.12) 或 (8.2.14) 将 可 能 分 别 变 为 宇 或 之 ， 
因为 zw(t)7Rezo(z) 之 0. 但 是 等 式 不 可 能 成 立 , 这 是 因为 对 任意 t,a1(t) >0, 
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故 
wG) Raw) = Nau hiai(r) > 0. 
显然 (8.2.8) 的 任意 不 动 点 0 必须 是 R, 的 特征 向 量 .这 样 一 个 点 的 范 数 
由 下 面 等 式 
Ai ll we lle; — (à; le 82) HE we le; =0， 
UE MICI w l| — 1. I w=0 和 R, 的 所 有 单位 特征 向 量 是 (8.2.8) 的 不 动 


从 定理 8.2.1 的 证 明 清楚 地 看 到 ,就 比值 和 (4 ) 的 动态 行为 而 言 ,在 稳定 
iG 


W — o Cr) w GP c(z) 的 选取 是 不 重要 的 .因为 在 (8.2.10) 中 o 消失 了 . 然 
而 考虑 稳定 性 时 ,a 的 选择 是 很 重要 的 .例如 Oja 规 则 选取 a (7) = e CL)! R, 
wlt) ,引导 到 |‖ wC) Ion T, rm oo ,而 简单 的 Hebbian 规则 (未 归 一 化 ) 选 择 
a(t)=0, 318 || ww(z) 一 co,t 一 oo. 下面 定理 说 明了 这 点 . 

定理 8.2.2 考虑 常 微分 方程 
dr = Rae - (wT Bw)w, (8.2.15) 
其 中 R, 是 正 半 定 ,其 最 大 特征 值 %, >0 是 单 重 的 ,B 是 正定 矩阵 , 设 ei 是 R, 
的 单位 主 特征 向 量 ,efw(0) 取 0, 那么 

lim w(t) = V A/e] Be,) - e 

证 明 我 们 沿 着 定理 8.2. 1 的 证 明 , 带 有 一 些 修改 .正如 注 ! 中 所 讨论 过 

I, R, 的 正 半 定 性 不 会 带 来 什么 问题 .现在 取 o= we Boo 仍 有 
lim(aj (1/210) 7 0 
JXFEXHEdE c 20, feft T lf V i T, 
lai( atl e 


故 有 
a(t) =at)? [e] Bei] + X a(t)a( FelBe,] 
à 
+ > a;lt)a;(t)leTBe;], 
m 
a(t) LeT Bei] - eM, - e? M; 
Solt) x a(t) leTBe,] + M, + e? Ms, £20, 
其 中 


Mi -Mieil, M= MieiBe, 


igxi 
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由 方程 (8.2.9) 得 


ai, 
[ài 7 Cel Bey + eM; + e? M3)ajlai 


E X [Ai 7 (efBr ~ eM, - & Mi)ailei. 
Ài d(aj) 
— o. 0 
ai < efBe, + eM, + £M; d > 
à d(ai) 
2 -A 上 <0 
o> Ther- eM,- eM? de < 
所 以 
A 
T ion Mp o2 
lim sup ai(z) 5 fe, + eM, + e M; 
A 
ee EE m MEM 
Win e p ML eM; 
4 e018 


: à 
lim alt) = TES 


一 般 说 来 (8.2.15) 之 类 规则 不 能 直接 地 推广 来 抽取 多 于 一 个 的 分 量 . 
8.2.3 广义 的 Hebbian 算法 (GHA) 


Sangerl%] 提 出 了 能 抽取 多 个 分 量 的 方法 , 即 所 谓 广义 Hebbian 算法 
(GHA). 对 于 第 一 个 分 量 它 等 同 于 Oja 规则 ， 人 
量 , 这 个 模型 有 m 个 输出 神经 元 ,，…,w An 个 输入 Tis, Ens TEARI 
输出 之 间 只 有 前 向 (feedforward) 联 系 ,输出 是 输入 的 线性 函数 


yi = wlr. 
对 于 第 i 个 神经 元 的 方程 是 
Aw, = By ya S Ya Down a). ij =1,=,n, (8.2.16) 
其 中 š 
LU [wiwi wn], i= 1,55. 
此 模型 在 条 件 A.2 和 下 面 的 条 件 AL 1727 F ,抽取 R, 的 前 面 m 个 主 单位 特征 
向 量 . 


A.V 除了 A.1 的 要 求 之 外 ,还 要 求 R, 的 m 个 最 大 特征 值 是 不 同 的 
Ai > A2 de D Am D Ams S Àn 0. 
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考虑 与 (8.2.16) 关 联 的 常 微分 方程 


dw; ` : 
— = Rw- MwjuRw; - wiRjww;, i-lecon, 


dt rr 
(8.2.17) 
我 们 要 证 明 limw(1)= 土 ei,i 二 1,…,m .证明 是 采用 归纳 法 . 
对 于 第 一 个 单元 适合 于 Oja 规 则 , 故 有 wi 一 t ei, koo. BUB ERU i 
m 一 1 个 单元 已 经 抽取 了 前 面 m — 1 个 单位 特征 向 量 , 即 ww = tesi lun, 
m 一 1. 这 时 方程 (8.2.17) 变 成 
duy, 


ia Ci- tee] ns - Goat), 


= Raw, 一 Ion， 
其 中 
R, = (1- >eeJ)R。， 


6 wIRas,. 
注意 R, 是 R, 经 mm 次 缩减 的 结果 , 故 R, KRTEL, 0 A, Adis 
44]. 根 据 8.2.2 节 的 分 析 ,zew 将 收敛 到 某 个 平行 于 第 m 个 特征 方向 的 向 量 
Hpewm 天 0, 由 (8.2.17) 的 均衡 条 件 ,容易 建立 因子 y 满足 : 
0 = /Ren - (eTR em ) pen s 
0= A, — HAm» Ap = 土 1， 
B Ew, l =1 B w(t) te, tono. 


8.2.44 ”多 分 量 的 子 空 间 规则 


Ww [wiw,]T€ R"*",m n ERMA rE R 到 输出 yE R" 的 
前 向 (feedforward) 加 权 ( 参 见 图 8.2.2)， 


y= wr. 
学 习 规 则 是 
Aw, = B yeri — yykwr), (8.2.18) 
与 其 关联 的 常 微分 方程 是 
du = wk, - GoRwT)w. (8.2.19) 
ao 


(8.2. 19) 的 第 一 项 相应 于 偏 导数 ,其 中 J 是 输出 方差 


Ji = puGRaw!) = L $5 E Cwt)? 
] 
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x, Y», Y, 


个 


图 8.2.2 对 于 多 主 分 重 抽取 的 子 空 间 模型 


故 第 一 项 是 推动 系统 向 极 大 化 方差 的 梯度 攀升 项 ,而 第 二 项 - GR wT) w 是 
避免 权 * 爆 炸 "的 一 个 稳定 项 . 
显然 单个 单元 的 Oja 规 则 (8.2.7) 是 (8.2.18)m = 1 时 的 特殊 情况 ， 
(8.2.19) 的 不 动 点 满足 条 件 
wR, = wR; w, 
如 果 rank(w) = ,那么 在 矩阵 wR, 中 存在 m 个 独立 的 列 是 zwTaw 的 相应 于 
特征 值 为 1 的 特征 向 量 ,这 样 wT 的 相应 于 特征 值 M; = 1 ,其 重 数 为 办 .因为 
rank( ww) = mn, 所 有 其 他 特征 值 必 是 0, BU 42=0, 其 重 数 为 n - m. tk 
ww 是 一 个 投影 矩阵 .我 们 将 说 明 ww 展 布 的 空间 与 前 面 个 主 特征 向 量 展 
布 的 空间 相同 .为 此 ,我 们 定义 特征 向 量 矩 阵 E 的 一 个 划分 
E = UE | E3] = [even | eme], 
E,€ R"”™ , EzE Rn" ^? HH w 分 解 为 惟一 和 
w = A,ET + A;ET, 
其 中 A E R"*", A,€ Rn 0-70) Jg E, 和 E; 右 乘 (8.2.19) 分 别 得 
dA, 


de 7 A147 ZA. (8.2.20) 
da: = A242 - ZA}, (8.2.21) 


其 中 A17 diag[ A174, ] A2= diag[ A, am], 研 = wR, wT. 
类 似 于 单一 单元 规则 的 证 明 , 我 们 来 考查 比 
QG) = AG)" Alt) 
随时 间 的 演化 .假设 A(0) 是 非 奇 异 的 ,由 (8.2.20) 推 知 ,对 -一切 tALG)R 


$8.2， 主 成 分 分 析 神经 网 络 算法 i Dans 


非 奇异 的 ,从 而 可 以 定义 AL 1A2. 又 因为 


ndr RAAR A 
所 以 
2- ap. ap Mana 
= Aj! AiAs? ~ AIATLA， 
= QA; - AiQ. 
其 解 为 


QC) = e^rQ()e^', 
qj) = e 79, (0), 
BD AS; XA i=l, 2, m.j1,2, n 7 m TARA QG)0, 1 
eo ,所 以 存在 某 个 非 奇异 矩阵 A, (oo) fd (it) 一 Al(co) ET 而且 span(zwT) 
7 span E,). 
注 子 空间 方法 并 不 是 抽取 分 量 ,而 是 寻找 这 些 分 量 展 布 的 子 空间 ， 
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